> 硕士毕业论文 > 64800字硕士毕业论文中文文本剽窃识别系统分析

64800字硕士毕业论文中文文本剽窃识别系统分析

论文类型:硕士毕业论文
论文字数:64800字
论点:抄袭,分词,文本
论文概述:

本文在详细分析了现有文档复制检测原形体系、抄袭识别工具的功能、特点基础上,解决了中文文本的相似度计量、定位相似内容等难点问题,设计并实现了一个面向学术期刊论文的汉语文本

论文正文:

第一章剽窃鉴定概述

1.1剽窃鉴定的研究背景

近年来,学术道德已经成为讨论的焦点之一,“学术腐败”、“学术票证盗窃”、“学术欺诈”、“学术不端”等词经常充斥报纸和互联网。
目前,文档剽窃在国内外并不少见。据湖北广播电视大学开放学院2006年春季毕业论文评审统计,法律、教育管理和行政的平均剽窃率分别为40%、17%和21%,最高剽窃率分别为80%、33%和77%。这从论文中的严重剽窃中可以明显看出。
作者在首次访问学术批评网络和新语丝时,发现了45起学术同行报告的剽窃案件。其中,有期刊论文抄袭图书章节、期刊文章、论文、报纸、外文文献(直译)、学位论文、学位论文抄袭学位论文、期刊论文、图书抄袭期刊论文等。有自我复制,一份手稿多次提交,直译,拼凑剽窃,片断剽窃和完全剽窃。据《中国期刊网》十大特刊报道,这些涉嫌剽窃的文章涵盖七大类,即文学、历史与哲学、经济与管理、农业、电子技术与信息科学、医药与卫生、政治与军事事务与法律、科技C(机电导航空交通、水利与建筑能源)。因此,剽窃不仅是一个学科的问题,而且存在于所有学科。它的影响是严重的,应该受到整个学术界的关注。
针对上述背景下论文剽窃的严重问题,本文的研究课题提出利用论文多层次特征属性的相似度计算来比较文档之间的相似度,然后利用基于分词的最长不重复公共子串求解算法和最长不重复公共子串求解算法来比较相似文本,找出“相似内容”并生成相似报告,从而实现剽窃识别的目的。

1.2剽窃相关概念和分类

1.2.1剽窃相关概念
剽窃是指在自己的文章中直接使用来自原始材料的信息、想法和句子而不加标签。这是一种撒谎、欺骗和偷窃的行为。
门票盗窃(剽窃)是指将他人作品的主要观点、论点、主要内容和情节引入自己的作品,而不指明出处,并试图掩盖剽窃的意图,给作品添加或多或少不必要的细节,但作品作为一个整体似乎与被门票盗窃的作品并无实质性区别。
在《作品法》中,国家版权局将剽窃和门票盗窃视为同一个概念,即“窃取他人的作品或作品片段作为自己的作品”。从剽窃的形式来看,有完整或基本完整地抄袭他人作品的行为,也有修改后窃取他人受著作权保护的原创作品作为自己作品的行为。前者被称为版权执法领域的低级剽窃,而后者被称为高级剽窃。
因此,为了通过引用他人已发表的作品来介绍和评论一部作品或解释一个问题,任何不是我自己的话或我的原始观点的句子都必须标有文章的作者、书中的页码和该书在论文中发表的年份,并在文章中注明引用以方便他人查看,即《版权法》中提到的合理引用。
turnitin是一个反剽窃服务网站,它对门票盗窃有明确的定义(1)将他人的作品作为自己的作品上交;2)不加解释地抄袭他人的句子或意见;3)引用不带引号的单词;(四)提供错误的引用资料来源信息的;(5)复制原文的结构,不加解释地更改其中的文字;6)如果大量复制他人的句子和观点构成了文章的大部分内容,那么,无论有没有任何解释,都将被视为门票盗窃。
在芜菁的MSP功能中,如果被审计的操作是连续4-5个字,Copyo在30%以下为绿色;超过30%是黄色的,更多的是红色的。
在本文中,偷票和剽窃被视为同一个概念。根据杜尼丁网站上对剽窃的定义,剽窃如下:
(1)当文本内容的相似度超过30%且参考文献中没有引用相似文献时,则认为是剽窃;
(2)当文本内容相似度超过50%时,无论是否引用相似文件,都被视为剽窃。

1.2.2剽窃的类型
剽窃不仅意味着原封不动地复制原文,还包括转移和转换原文、替换同义词和改变陈述重述的方式。
根据剽窃的内容和形式,理论家将剽窃分为四类:不改变原作的剽窃;二是复制原作。第三,他复制了自己的作品。第四是无意识剽窃。
从文档复制检测的技术层面来看,剽窃可以分为程序代码剽窃和自然语言文本剽窃。与形式语法严格、结构信息清晰、易于获取的计算机程序相比,自然语言文本不受形式语法的限制,含义模糊,结构特征一般不明显,因此识别自然语言文本中的剽窃相对较难。

1.3剽窃识别的研究现状

1.3.1国外研究现状
自20世纪70年代初以来,国外就有防止程序剽窃的软件研究,但直到1991年第一个自然语言文本剽窃识别软件WordCheck才诞生。
现有的自然语言文本拷贝检测系统主要采用基于字符串比较和词频统计的两种方法。基于字符串比较的方法也称为基于语法的方法,所有这些方法都要求来自文档的数据

第三章剽窃识别工具……29-52
3.1中文分词……29-32
3.1.1中文分词方法……29-30
3.1.2现有分词系统是……30-32
1,中文令牌……30
2,雨滴印记粒子模块……30-31
3,计算汉语词汇……31
4,KTDICTSEG……31-32
5,CSW中文分词……32
3.1.3……32
3.2文本相似性……32-43
3.2.1文本相似性……33
3.2.2计算文本相似度……33-43
1,……34-37
2基于字符匹配和类似……37-39
基于set model 3。……39-41[/比尔/] 4基于向量空,相似性……41-42[/溴/] 5基于氮克和多级特征融合……42-43
3.3文本比较……43-51
3.3.1相关背景……44
3.3.2相关概念……44-46
3.3.3寻求所有公共子……46-47 [/BR/] 3.3.4不重复最长公共子串……47-49[/比尔/] 3.3.5不重复……49-51
基于分词3.4本章总结……51-52
第四章中文文本剽窃识别系统……52-63
4.1中文文本剽窃识别系统……52-55
4.1.1文件登记……52-53 [/BR/] 4.1.2分词模块……53-54 [/BR/] 4.1.3剽窃识别模块……54-55
4.1.4查询模块……55
4.1.5背景维护模块……55
4.2知识库建设……55-58
4.2.1同义词词典的建立……55-57 [/BR/] 4.2.2分类表的建立……57-58 [/BR/] 4.2.3停用词词典的建立……58 [/BR/] 4.3系统及其实施过程介绍……58-62

摘要和前景
文档复制检测技术可以自动检测数字文档之间的重叠信息。它是保护知识产权和提高信息检索效率的有力手段。剽窃鉴定是一种特殊的文档复制检测技术,是提高学术论文质量、净化学术环境的重要手段。
在详细分析现有文档复制检测原型系统和剽窃识别工具的功能和特点的基础上,解决了中文文本相似性度量和相似内容定位的难题,设计并实现了学术期刊论文中文文本剽窃识别原型系统。