当前位置: > 硕士毕业论文 > 30000字硕士毕业论文搜索引擎文本索引和检索去重算法的研究与实现

30000字硕士毕业论文搜索引擎文本索引和检索去重算法的研究与实现

论文类型:硕士毕业论文
论文字数:30000字
论点:搜索引擎,算法,检索
论文概述:

索引擎的特点搜索引擎的技术基础是全文检索技术[4],从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方

论文正文:

  第一章绪论         1.1研究背景诺贝尔经济学奖获得者赫伯特·西蒙曾指出:在信息时代,最稀缺的资源不再是信息本身,而是对信息的处理能力[f}l。搜索引擎作为一项网络应用,已经成为人们查询信息的重要工具之一,它可以使人们从Internet大量纷杂的信息中,找到与主题相关的信息,为人们查询信息提供了方便。但是由于中文自身的特点,目前的搜索引擎存在着很多的问题,它只解决了信息查询的问题,而从信息资源覆盖面、检索精度、信息的输出方式等许多方面来看,检索结果的查全率和查准率不是很高,将Web挖掘技术应用到搜索引擎领域,将会给用户提供一个高效、准确的Web检索工具[2.3]0目前,Web用户主要是使用搜索引擎在互联网上检索信息,但目前的搜索引擎往往返回给用户成千上万个检索到的页面,且其中很大一部分是重复的或与用户检索要求不相关的内容。每个结果页面都有与查询的相关度评分,检索结果以每页十几个到几十个结果的方式,按照与查询的相关度,以降序排列提交给用户。查看搜索引擎返回的结果时,一般只会看头几页的结果,很少有人会看排名在100或200之后的结果页面,几乎没有人会穷尽数量庞大的检索结果。人们在查看搜索引擎返回的这些结果时,往往会感觉到它们多少与查询是相关的,但检索质量还不够好。         1.2搜索引擎1.2.1搜索引擎的特点搜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索,对比而言,主要有以下几个特点:1、数据量大。互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。2、内容相关性复杂。信息量大,查准和排序就特别重要,Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据。3、安全性要求不高。互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其数据安全和管理的要求并不是非常严格。4、个性化和智能化。搜索引擎面向的是互联网访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前搜索引擎技术努力的方向。         1.2.2搜索引擎的分类结合互联网信息的特点,搜索引擎形成了三个不同的类型:1、全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google(http://www.google.com),yahoo(http://search.yahoo.com),Al1TheWeb(http://www.alltheweb.com)等,国内著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。2、目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(http://www.yahoo.com)OpenDirectoryProject(DMOZ)(http://www.dmoz.com/),LookSmart(http://www.looksmart.com)等。国内的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、网易(http://www.163.com)搜索也都具有这一类功能。3、元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile(http://www.dogpile.com),Vivisimo(http://www.vivisimo.com)等,国内元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.com/),优客搜索(http://www.yok.com)。在搜索结果排列方面,有的直接按来源引擎排列搜索结  参考文献 [1]许嘉璐.现状和设想一试论中文信息处理与现代汉语研究.中文信息学报,2001,15(2):1-8.D. Fetterly, M. Manasse, M. Najork, and J. Wiener. A large-scale study of the evolution ofweb pages[C]. WW \'03: Proceedings of the 12th international conference on World WideWeb, New York, Adamic L. A, Huberman B A. The Web\'s Hidden Order Communication of the ACM, 2001,44 (9):55-59.[4]A. Ntoulas, J. Cho, and C. Olston. What\'s new on the web?: the evolution of the web from asearch engine perspective[C]. WWW \'04: Proceedings of the 13th international conferenceon World Wide Web, Henzinger M R.Hyperlink Analysis for the Web. IEEE Internet Computing, 2001,5 (1):5-50.  摘要 5-6 ABSTRACT 6 第一章 绪论 9-16     1.1 研究背景 9     1.2 搜索引擎 9-15         1.2.1 搜索引擎的特点 9-10         1.2.2 搜索引擎的分类 10-11         1.2.3 搜索引擎的系统架构 11-12         1.2.4 搜索引擎的缺陷 12-15     1.3 本文的研究内容及论文组织结构 15-16 第二章 相关技术介绍 16-38     2.1 关键字提取技术分析 16-21         2.1.1 关键字提取算法 16-17         2.1.2 文本预处理 17         2.1.3 朴素贝叶斯模型: 17-18         2.1.4 评估函数 18         2.1.5 TF~*IDF方法 18-21     2.2 网页去重算法分析 21-25         2.2.1 SCAM算法 21-22         2.2.2 基于特征串的网页去重算法 22-23         2.2.3 基于特征句抽取的网页去重 23-24         2.2.4 算法比较 24-25     2.3 页面排序算法分析 25-37         2.3.1 PageRank算法 25-26         2.3.2 PageRank算法的改进 26-28         2.3.3 WTPR算法 28-37     2.4 本章小结 37-38 第三章 基于关键词和特征码的网页去重K-CC算法 38-47     3.1 算法框架 38-39     3.2 关键词的提取 39-42         3.2.1 词义 40         3.2.2 选择候选关键词 40-41         3.2.3 特征选择和离散化 41-42         3.2.4 关键词的提取 42     3.3 特征串的提取 42-44     3.4 特征串相似度计算 44-46     3.5 本章小结 46-47 第四章 基于Lucene的搜索引擎系统实现 47-62     4.1 基于Lucene搜索引擎系统的框架设计 47-50         4.1.1 Lucene页面排序算法分析 49-50         4.1.2 基于Lucene搜索引擎系统的流程设计 50     4.2 K-CC网页去重算法的实现 50-52     4.3 WTPR算法的实现 52-54     4.4 系统测试分析 54-60         4.4.1 测试环境 54         4.4.2 去重算法比较 54-58         4.4.3 排序算法比较 58-60     4.5 本章小结 60-62 第五章 总结与展望 62-64     5.1 工作总结 62     5.2 工作展望 62-64 致谢 64-65