> 硕士毕业论文 > 30000字硕士毕业论文中文聚类搜索引擎主要数据分析及技巧研究

30000字硕士毕业论文中文聚类搜索引擎主要数据分析及技巧研究

论文类型:硕士毕业论文
论文字数:30000字
论点:搜索引擎,分词,中文
论文概述:

本文的主要工作是研究探讨中文聚类搜索引擎中两个主要技术:中文分词文本聚类。并对这两个技术进行了改进以提高最终的搜索性能。我们采用的中文分词是结合后缀数组提取关键短语的中

论文正文:

  第1章绪论         本章首先对搜索引擎进行简要介绍,从它的发展历程和重要意义上阐述搜索引擎技术革新对于互联网络发展的意义,并清晰地了解搜索引擎技术目前发展的阶段和下步发展的趋势。其次对聚类搜索引擎这一较新技术进行介绍,目的是从它的发展现状了解搜索引擎最新技术,从它的主要功能了解它的发展趋势。最后,对本文主要研究问题作以介绍,并对每章主要内容和目的进行梳理。1.1本文研究意义随着互联网络信息量的不断增长,人们选择信息的空间越来越大,但同时那些重复的、过时的、错误的信息也掺杂其中,给用户的选择带来了极大的不便,增加了搜索目标的难度。这几年,和网络技术的发展一样,搜索引擎技术的发展也很迅速。传统搜索引擎的技术不断得到改进,智能式的搜索越来越被普遍应用,搜索引擎公司提供的服务也越来越人性化,推出了很多特色服务,极大地方便了广大用户搜索目标。搜索引擎的快速发展,极大提高了网络的利用效率,为互联网络的普及做出了贡献。聚类搜索引擎是在传统搜索引擎的基础上发展起来的,它能够提高用户搜索目标的准确率,在数以万计的搜索结果中找到用户真正的需求,从目前来看是一种较成熟的技术。互联网络传到中国以来,中文的搜索引擎技术也快速发展,从目前看也达到了一定水平。但汉语不同于英语,它的表达意义丰富,语法复杂,对于普通人来讲,真正地了解掌握也要花费一定的时间和精力,由于受到服务器质量、存储空间、运行时间等条件限制,让搜索引擎更好地了解汉语是一件很困难的事情。如何进行中文分词,如何找到文档特征,是提高中文聚类搜索引擎搜索质量的关键。本文的研究意义主要在于对传统搜索引擎的搜索结果进行文本聚类,首先按一定策略进行中文分词,提取特征;然后利用改进的k-means聚类算法来进行聚类。通过这两个方面的研究,能够提高中文聚类搜索的准确度,让最终搜索结果更贴近用户的需求。         1.2搜索引擎的基本介绍随着时发表展和网络普及,互联网已经走入千家万户,成为人们工作、生活不可或缺的一部分。搜索引擎是伴随着网络发展而被人们普遍熟悉和接受的,它的作用和地位是不言而喻的,有人形象地比做“搜索引擎是开启网络大门的金钥匙”。下面,主要从搜索引擎的发展历程和重要意义两个方面,作以简要介绍。1.2.1搜索引擎发展简要历程搜索引擎技术的发展可以说是日新月异的,技术革新也是很快速的。从对近十多年来的发展历程来看,大致可以分为三个阶段:第一代搜索引擎可以称为目录式搜索引擎。这种搜索引擎的主要工作原理是依靠人工或半自动方式从网络上发现各类信息,再由工作人员进行鉴别和分类,将网络信息按照预先安排分成若干个大类,每个大类再分成若干个小类,形成一个可供由外层到内层查询的主题索引式搜索引擎,并把这些信息的摘报安置于预定的分类框架中。它的主要优点是,由于人工的参与,因此搜索的准确度比较高,导航的质量比较精确。主要缺点是,由于人工的搜索很难覆盖整个网络,也很难对网络动态变化进行有效监控,因此维护的成本比较高、信息更新比较慢。主要代表是Yahoo等。第二代搜索引擎可以称为机器人式搜索。这种搜索引擎的主要工作原理是采取多线程并发搜索技术,利用Web页中的超文本链接遍历所有网络,并把搜索到的信息建立索引表,用户在使用时主要是通过对索引表的查询来寻找结果。它的主要优点是,程序自动运行,只要时间和存储空间充足,可以面向全部网络搜索,因此信息量很大、更新比较及时、人工成本较低。         它的主要缺点是,由于通过简单的文本超链接搜索,没有智能分析过程,重复、无关、无用等信息比较多,用户还必须进行认真的筛选鉴别,因此信息的精准度不是很高,用户使用起来比较不便。第三代搜索引擎可以称为智能式搜索。这种搜索引擎的主要工作原理是广泛应用了自动分类、自动聚类等人工智能技术,通过采用内容分析及智能识别手段,提高了搜索引擎的查询效率,基于此出现了元搜索引擎、聚类搜索引擎、自然语言处理搜索引擎、语义网搜索引擎等等。同时,第三代搜索引擎也专门满足一些专门用户的个性化搜索需求,出现了如移动搜索引擎、桌面搜索引擎、可视化搜索引擎、垂直搜索引擎以及多内容搜索引擎等等,这些技术的革新让以往搜索模式变得更加多元,提高了用户对搜索结果的满意度,也促进了网络的普及和应用。【‘J总体来看,搜索引擎发展的这三个阶段都是围绕两个对象,一个是网络资源(搜索引擎的主体对象),另一个是用户(搜索引擎的客体使用者)。从以上简要介绍可以发现,搜索引擎技术发展的前两个阶段主要是围绕网络资源进行研究的,从第三代智能式搜索出现以来,才开始把研究用户需求作为研究重点对象,从而提高搜索的精准度,把“所得即所需”作为技术革新的最高要求和最终目标,这也和互联网络发展的总体目标任务是相一致的。  参考文献[1]苍宏宇,谭宗颖.聚类搜索引擎发展现状研究[[J].图书情报工作,2009 (1):125-I 28. Search Engine Watch.[EB/OL],中国大百科全书总编辑委员会.中国大百科全书「M]:中国大百科全书出版社,1993:201-203.黄居仁.瓶颈挑战与转机中文分词研究的新思维[M]:中国计算机语言学研究前沿 进展2009:2007-2009.李晓明,闰宏飞,王继民.搜索引擎的原理、技术与系统【M]:科学出版社,2004:132-13 7.余战秋.中文分词技术及其应用初探[M].研究与开发出版社,2004:76-83.黄昌宁,赵海.中文分词十年回顾[[J].中文信息学报,2007(21): 9-19.黄建年,侯汉清.聚类搜索引擎探究[[J].图书馆学研究,2009(1): I S-19. 提要 4-5 目录 5-7 第1章 绪论 7-12     1.1 本文研究意义 7     1.2 搜索引擎的基本介绍 7-10         1.2.1 搜索引擎发展简要历程 8-9         1.2.2 搜索引擎发展重要意义 9-10     1.3 聚类搜索引擎的基本介绍 10-11         1.3.1 聚类搜索引擎发展现状 10-11         1.3.2 聚类搜索引擎功能介绍 11     1.4 本文主要工作 11-12 第2章 聚类搜索引擎结构模式分析 12-20     2.1 传统搜索引擎的结构模式 12-17         2.1.1 基本概述 12-13         2.1.2 工作流程 13-14         2.1.3 关键技术 14-17         2.1.4 技术指标 17     2.2 聚类搜索引擎的结构模式 17-20         2.2.1 基本概述 17         2.2.2 主要应用 17-18         2.2.3 基本流程 18-19         2.2.4 存在局限 19-20 第3章 网页文本预处理——中文分词 20-32     3.1 中文分词研究 20-21         3.1.1 中文分词分类 20-21         3.1.2 中文分词困难 21     3.2 中文分词算法改进 21-32         3.2.1 利用后缀数组提取重复短语 22-27         3.2.2 结合后缀数组提取关键短语的中文分词 27-32 第4章 对搜索结果聚类——web文档聚类 32-40     4.1 文本聚类研究 32-34         4.1.1 文本聚类流程 32-34         4.1.2 文本聚类方法 34     4.2 应用文档聚类处理搜索结果 34-40         4.2.1 对搜索结果聚类的特点和要求 34-35         4.2.2 使用改进k-means算法对搜索结果进行聚类 35-40 第5章 系统算法的实现及实验结果 40-45     5.1 中文分词模块的实验结果及分析 40-42     5.2 聚类模块的实验结果及分析 42-44     5.3 聚类搜索引擎的搜索结果 44-45 第6章 总结与展望 45-47     6.1 全文总结 45     6.2 未来的工作 45-47 

[2]