30000字硕士毕业论文搜索引擎文本索引和检索去重算法的研究与实现

硕士毕业论文

论文类型：硕士毕业论文

论文字数：30000字

论点：搜索引擎,算法,检索

论文概述：

索引擎的特点搜索引擎的技术基础是全文检索技术[4]，从20世纪60年代，国外对全文检索技术就开始有研究。全文检索通常指文本全文检索，包括信息的存储、组织、表现、查询、存取等各个方

论文正文：

第一章绪论 1.1研究背景诺贝尔经济学奖获得者赫伯特·西蒙曾指出:在信息时代，最稀缺的资源不再是信息本身，而是对信息的处理能力[f}l。搜索引擎作为一项网络应用，已经成为人们查询信息的重要工具之一，它可以使人们从Internet大量纷杂的信息中，找到与主题相关的信息，为人们查询信息提供了方便。但是由于中文自身的特点，目前的搜索引擎存在着很多的问题，它只解决了信息查询的问题，而从信息资源覆盖面、检索精度、信息的输出方式等许多方面来看，检索结果的查全率和查准率不是很高，将Web挖掘技术应用到搜索引擎领域，将会给用户提供一个高效、准确的Web检索工具[2.3]0目前，Web用户主要是使用搜索引擎在互联网上检索信息，但目前的搜索引擎往往返回给用户成千上万个检索到的页面，且其中很大一部分是重复的或与用户检索要求不相关的内容。每个结果页面都有与查询的相关度评分，检索结果以每页十几个到几十个结果的方式，按照与查询的相关度，以降序排列提交给用户。查看搜索引擎返回的结果时，一般只会看头几页的结果，很少有人会看排名在100或200之后的结果页面，几乎没有人会穷尽数量庞大的检索结果。人们在查看搜索引擎返回的这些结果时，往往会感觉到它们多少与查询是相关的，但检索质量还不够好。 1.2搜索引擎1.2.1搜索引擎的特点搜索引擎的技术基础是全文检索技术，从20世纪60年代，国外对全文检索技术就开始有研究。全文检索通常指文本全文检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索，一般用于企事业单位。随着互联网信息的发展，搜索引擎在全文检索技术上逐渐发展起来，并得到广泛的应用，但搜索引擎还是不同于全文检索，对比而言，主要有以下几个特点:1、数据量大。互联网网页搜索需要处理几十亿的网页，搜索引擎的策略都是采用服务器群集和分布式计算技术。2、内容相关性复杂。信息量大，查准和排序就特别重要，Google等搜索引擎采用网页链接分析技术，根据互联网上网页被链接次数作为重要性评判的依据。3、安全性要求不高。互联网搜索引擎的数据来源都是互联网上公开的信息，而且除了文本正文以外，其数据安全和管理的要求并不是非常严格。4、个性化和智能化。搜索引擎面向的是互联网访问者，由于其数据量和客户数量的限制，自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用，这也是目前搜索引擎技术努力的方向。 1.2.2搜索引擎的分类结合互联网信息的特点，搜索引擎形成了三个不同的类型:1、全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google(http://www.google.com),yahoo(http://search.yahoo.com),Al1TheWeb(http://www.alltheweb.com)等，国内著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，也是目前常规意义上的搜索引擎。2、目录搜索引擎:目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(http://www.yahoo.com)OpenDirectoryProject(DMOZ)(http://www.dmoz.com/),LookSmart(http://www.looksmart.com)等。国内的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、网易(http://www.163.com)搜索也都具有这一类功能。3、元搜索引擎:元搜索引擎在接受用户查询请求时，同时在其它多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有Dogpile(http://www.dogpile.com),Vivisimo(http://www.vivisimo.com)等，国内元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.com/)，优客搜索(http://www.yok.com)。在搜索结果排列方面，有的直接按来源引擎排列搜索结参考文献 [1]许嘉璐.现状和设想一试论中文信息处理与现代汉语研究.中文信息学报，2001,15(2):1-8.D. Fetterly, M. Manasse, M. Najork, and J. Wiener. A large-scale study of the evolution ofweb pages[C]. WW \'03: Proceedings of the 12th international conference on World WideWeb, New York, Adamic L. A, Huberman B A. The Web\'s Hidden Order Communication of the ACM, 2001，44 (9):55-59.[4]A. Ntoulas, J. Cho, and C. Olston. What\'s new on the web?: the evolution of the web from asearch engine perspective[C]. WWW \'04: Proceedings of the 13th international conferenceon World Wide Web, Henzinger M R.Hyperlink Analysis for the Web. IEEE Internet Computing, 2001，5 (1):5-50. 摘要 5-6 ABSTRACT 6 第一章绪论 9-16 1.1 研究背景 9 1.2 搜索引擎 9-15 1.2.1 搜索引擎的特点 9-10 1.2.2 搜索引擎的分类 10-11 1.2.3 搜索引擎的系统架构 11-12 1.2.4 搜索引擎的缺陷 12-15 1.3 本文的研究内容及论文组织结构 15-16 第二章相关技术介绍 16-38 2.1 关键字提取技术分析 16-21 2.1.1 关键字提取算法 16-17 2.1.2 文本预处理 17 2.1.3 朴素贝叶斯模型: 17-18 2.1.4 评估函数 18 2.1.5 TF~*IDF方法 18-21 2.2 网页去重算法分析 21-25 2.2.1 SCAM算法 21-22 2.2.2 基于特征串的网页去重算法 22-23 2.2.3 基于特征句抽取的网页去重 23-24 2.2.4 算法比较 24-25 2.3 页面排序算法分析 25-37 2.3.1 PageRank算法 25-26 2.3.2 PageRank算法的改进 26-28 2.3.3 WTPR算法 28-37 2.4 本章小结 37-38 第三章基于关键词和特征码的网页去重K-CC算法 38-47 3.1 算法框架 38-39 3.2 关键词的提取 39-42 3.2.1 词义 40 3.2.2 选择候选关键词 40-41 3.2.3 特征选择和离散化 41-42 3.2.4 关键词的提取 42 3.3 特征串的提取 42-44 3.4 特征串相似度计算 44-46 3.5 本章小结 46-47 第四章基于Lucene的搜索引擎系统实现 47-62 4.1 基于Lucene搜索引擎系统的框架设计 47-50 4.1.1 Lucene页面排序算法分析 49-50 4.1.2 基于Lucene搜索引擎系统的流程设计 50 4.2 K-CC网页去重算法的实现 50-52 4.3 WTPR算法的实现 52-54 4.4 系统测试分析 54-60 4.4.1 测试环境 54 4.4.2 去重算法比较 54-58 4.4.3 排序算法比较 58-60 4.5 本章小结 60-62 第五章总结与展望 62-64 5.1 工作总结 62 5.2 工作展望 62-64 致谢 64-65

30000字硕士毕业论文搜索引擎文本索引和检索去重算法的研究与实现

论文类型：硕士毕业论文

论文字数：30000字

论点：搜索引擎,算法,检索

论文概述：

论文正文：

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

论文分类

30000字硕士毕业论文搜索引擎文本索引和检索去重算法的研究与实现

论文类型：硕士毕业论文

论文字数：30000字

论点：搜索引擎,算法,检索

论文概述：

论文正文：

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

论文分类