当前位置: > 硕士毕业论文 > 42400字硕士毕业论文鉴于高效的剽窃检查技术和论文语义的系统分析

42400字硕士毕业论文鉴于高效的剽窃检查技术和论文语义的系统分析

论文类型:硕士毕业论文
论文字数:42400字
论点:论文,剽窃,检查
论文概述:

本文对比了国内外主流的文本复制检测技术,详细介绍了文本复制检测技术的历史和发展,以及主要检测技术的思想和算法,并总结了面向领域的语义本体技术。本文还介绍了本课题的前期工

论文正文:

第一章引言

1.1主题背景

近年来,随着互联网技术的飞速发展和网络数据库的日益丰富,纸质信息的获取变得越来越方便。研究人员可以很容易地检索各种所需的学术论文来协助研究工作。但与此同时,抄袭者抄袭论文也很方便。复印机可以简单地复制和粘贴他人论文的内容。学术领域的纸质门票盗窃现象越来越严重,引起了社会的强烈关注。学术诚信研究所的唐纳德对来自25所美国学校的4500名学生进行的一项调查显示,早在2001年,72%的学生承认他们在写作时剽窃了一次或多次。此外,97%的学生承认他们在发表论文或写作业时曾尝试剽窃。另有15%的学生承认,在发表论文时,有些章节来自学术期刊或网站,但没有注明出处。90%的学生承认在网上剽窃。根据最新报告,《科学》杂志公布了一个研究小组在其报告中列出的“潜在窃贼”名单。作者在这些列表上写的科学论文平均有86.2%与以前发表的相似。[在我们国家,剽窃变得非常严重。国内新闻媒体经常出现知名高校教授或学生剽窃的报道。剽窃的存在严重影响了中国崇高学术形象的塑造和各大高校高素质人才的培养。为杜绝这一现象,净化学术环境,重塑我国学术形象,教育部自2004年8月中华人民共和国成立以来颁布了第一部《高等学校哲学社会科学研究学术标准(试行)》,严厉打击各种剽窃行为。高校也采取措施惩罚剽窃,以杜绝学生和教师的剽窃和偷票行为。
除了加强对学生和教师的教育并制定相应的法律法规之外,还迫切需要建立有效的剽窃检查制度。剽窃检查制度出现之前,采用人工检查。然而,由于人工检查效率低,只能采用随机检查试卷。一般来说,只有当审稿人看到剽窃的论文时,才会发现论文剽窃。寻找一种高效的论文j盗窃检测技术和方法,不仅可以有效地发现抄袭论文,而且可以有效地遏制论文盗窃现象。

1.2前期工作

在前期工作中,我们还分别提出了基于字符串匹配和词频统计的剽窃检测算法,并对其性能进行了分析。

1.2.1基于元搜索引擎的论文剽窃检查算法
根据字符串匹配的文本相似度比较方法,设计了一种基于元搜索引擎的论文剽窃检查算法。该算法使用互联网搜索引擎作为另一个比较对象来抄袭论文
1。纸张分割
算法首先对输入纸张进行预处理,并将纸张分割成多个段落作为待检查对象。因此,有必要考虑论文的分割策略。如前一章所述,通常有三种分割方法,一种是将本文作为一个片段,另一种是将每个单词作为一个片段,另一种是将多个单词组合成一个片段。
首先,第一种分割方法是不可取的。考虑到我们需要在下一个链接中使用段作为关键字,通过搜索引擎搜索候选对象,虽然我们在搜索候选对象时只需要考虑网络的延迟时间,忽略搜索引擎的查询处理时间,但是一般的搜索引擎只能使用网址通过GET传递关键字,最大长度只能达到2KB。即使数据是通过开机自检传输的,最大数据量通常是有限的,不能满足所有文章的要求。此外,假设一篇文章可以作为整个关键词使用,因为搜索引擎没有索引所有的单词,结果可能与文章非常不同,而可能被复制的文章不在候选文章之列。
第二种分割方法完全没有意义,也是不可取的。如果根据第二种方法将每个单词分成片段,从搜索引擎中搜索出的结果必须包含片段,并且每个单词可能出现在不同类型的文档中,因此生成的候选对象根本没有区别意义。

第三章以论文语义为基础……30-32
3.1剽窃检查系统……30-31
3.2剽窃检查流程……31
3.2.1纸张结构……31
3.2.2互联网信息……31
3.2.3候选集查找……31
3.2.4相关单位……31
3.3本章概述……31-32
第四章语义剽窃检查系统……32-41
4.1……33-36
4.1.1纸张结构……33-34
4.1.2纸张结构此……34-36
4.1.3基于本体……36[/比尔/] 4.1.4基于本体……36[/溴/] 4.2相对细胞密度……36-40
4.2.1相关单位……37-38 [/BR/] 4.2.2基于相对单位……38-39 [/BR/] 4.2.3基于相对单位……39-40
4.3系统开发环境和技术……40
4.4本章概述……40-41
第五章绩效分析……41-45
5.1剽窃检查……41-43[/ Br/] 5.1.1准确度和召回率……41-42
5.1.2时间复杂性……42-43
5.2测试环境……43
5.3测试案例……43[/溴/] 5.4测试结果……43-44 [/BR/] 5.5本章概述……44-45

摘要
近年来,随着互联网技术的飞速发展和网络数据库资源的日益丰富,纸质信息的获取变得越来越方便。研究人员可以很容易地检索各种所需的学术论文来协助研究工作。然而,与此同时,它也助长了论文的剽窃。抄袭者只需要做一个简单的复制粘贴就可以把别人论文的内容当成自己的了。学术论文抄袭现象越来越严重,不仅不利于科学技术的发展,而且对社会道德价值观也有一定的影响。在我国,论文剽窃已经变得非常严重。国内新闻媒体经常出现知名大学教授或学生剽窃论文的报道。偷纸现象的存在严重影响了中国崇高学术形象的塑造和各大高校高素质人才的培养。对纸张盗窃检测的需求和相应的系统要求日益增加。
比较了国内外主流的文本拷贝检测技术,详细介绍了文本拷贝检测技术的历史和发展,以及主要检测技术的思想和算法,总结了面向领域的语义本体技术。本文还介绍了本课题的前期工作。在前期工作中,我们根据主流的文本检测技术,设计了基于元搜索引擎的论文防盗版检测算法,并在没有本地讨论库支持的情况下,有效地利用互联网搜索引擎对论文的剽窃进行了检测。然后,讨论了相关频率模型在论文抄袭检测中应用的优缺点,并对其缺陷进行了改进。在此基础上,设计了基于词频统计的纸质票证(防盗检查算法)。