当前位置: > 硕士毕业论文 > 52000字硕士毕业论文教育信息垂直计算机搜索引擎的研究

52000字硕士毕业论文教育信息垂直计算机搜索引擎的研究

论文类型:硕士毕业论文
论文字数:52000字
论点:搜索引擎,检索,用户
论文概述:

搜索引擎这个名称来自十它的英文名称:Search Engine言下之意,它是一种查询信息的发动机。可以说,整个搜索引擎的发展历史就是Internet网络的发展历史,因为网络用户一直存在着从大量网络信

论文正文:

第一章导言

1。1研究背景和意义

网络科技的飞速发展带来了社会信息的大量增加。互联网以前所未有的速度在世界上迅速发展,规模也在扩大。这带来了两个影响:一方面,人类拥有丰富的信息资源空;另一方面,如何从这些大量的信息中获得有效的成分已经成为一个很大的困难。从大量的网络信息资源中获取信息变得越来越困难,要求快速准确,这一要求变得越来越重要。用户越来越难以找到所需的资源。如何检索和查询这些用户所需的信息资源迫在眉睫。这时,搜索引擎技术的出现解决了这个难题。搜索引擎技术就是在这样的背景下出现的。它解决了人们在互联网上搜索和定位信息的问题,整合了互联网上的大量信息资源,为用户提供了相关的信息检索和查询服务,在很大程度上解决了这个瓶颈问题。搜索引擎是一个用来为用户提供相关信息检索服务的系统。一般来说,它有特定的算法策略和程序来收集互联网上的信息,处理和组织结果,然后将结果发送给用户的客户端进行显示。由于搜索引擎可以从各种网络资源中找到用户需要的信息,随着网络技术的不断发展,搜索相关技术也在不断发展,搜索引擎已经成为人们日常生活中的重要工具,在网络应用中呈现出快速发展的势头。中国互联网络信息中心(CNNIC)于2011年1月19日在北京发布了第27期《中国互联网发展统计报告》。报告显示,截至2010年底,中国有4.57亿互联网用户。域名总数达到866万,网页数量达到600亿,网站数量达到191万,2010年年增长率达到78.6%,其中每个网站拥有的平均网页数超过3000页。我们最关心的是搜索引擎的使用率达到了81.9%,用户数量达到了3.75亿
。以上数据充分显示了搜索引擎的重要性,随着网络的不断发展,它们之间的重要性和依赖性将会不断提高。

1.1.1搜索引擎开发
所有搜索引擎的鼻祖。1990年,麦吉尔大学的两名学生开发了阿奇·阿奇(Archie o Archie),可以找到带有文件名的文件。受阿奇的启发,地鼠搜索工具于1993年开发。很快,第一个在互联网上搜索信息的程序——网络爬虫——蜘蛛出现了。1994年,搜索引擎的先驱雅虎(Yahoo)掀起了一场搜索风暴,并利用网站分类目录开发了一种搜索模式。用户可以通过单击逐层搜索目的站,并成功搜索网络信息。因为它的数据需要手动输入,事实上它只是一个可搜索的目录,所以它不能真正被归类为搜索引擎。
1995年,维吾尔族搜索引擎出现。维吾尔搜索引擎的概念是用户提交请求后,多个预选的独立搜索引擎在维吾尔搜索引擎的控制下处理事物,最终维吾尔搜索引擎集合返回的结果,但搜索效果并不理想。十个互联网用户对搜索的迫切需求不断上升,如准确性和效率。因此,各种搜索技术不断创新,一些大型搜索引擎公司也应运而生。其中最著名的是百度——百度和谷歌,它们后来产生了智能搜索。它全面检查文档的重要性等索引,并根据文档和相关搜索词计算的相关性对搜索结果进行排序,以提供更高的搜索效率。经过几个阶段的大规模搜索、高精度和高匹配,个性化发展是搜索引擎的另一个必然发展方向。具体表现为:用户的年龄、职业、爱好、兴趣领域等不同;由于缺乏十个搜索引擎的查询界面或相关知识,用户无法清楚地表达自己的想法。在不同时期搜索同一单词的用户应该能够对应不同的搜索结果,以满足用户的不同需求。因此,如何设计一套用户反馈系统是非常重要的
1。主要国外搜索引擎
本节简要介绍一些著名的和有代表性的国外搜索引擎。
1 . a1 ta vista
a1 ta vista是世界上最知名的在线搜索引擎公司之一,还提供搜索引擎背景技术支持和其他相关产品。它由Digito于1995年创建。DEC阿尔法服务器被10号使用,这是一个专注于网页全文检索的搜索引擎,同时提供分类目录。内容极其丰富,真正可以称之为上海卷信息检索。A1taVista可以进行常规搜索、高级搜索和主题搜索,包括图像、音频、视频等。
2。Hotbot
Hotbot具有界面组织和丰富的检索功能。对于网页检索,它提供了直观的图形检索菜单功能,可以根据口述期、地理区域或媒体类型进行受限搜索。HotBot还提供域名搜索、新闻搜索、新闻讨论组和其他搜索服务。
3。雅虎
A1 Ta Vista和HotBot是免费搜索引擎,而雅虎是10类搜索引擎。除了为所有网站提供全文搜索服务,雅虎还将收集到的网站和网页编入索引和摘要。雅虎是世界上第一个提供互联网导航服务的网站。雅虎更适合十个一般查询。雅虎通过冗余较少的手动索引对数据库进行分类。雅虎还将自动向A1taVista发送无法获得结果的查询,以便进一步检索。雅虎10的分类数据库是手动维护的,不提供全文关键词搜索服务,因此很难为更专业和远程的查询提供满意的结果。

第三章垂直搜索方法……24-35 [/BR/] 3.1垂直搜索引擎主体……25-26 [/BR/] 3.2垂直搜索引擎关键字……26-35 [/BR/] 3.2.1中文分词……28-30[/ Br/] 3.2.2页面排名……30-35
第4章LUCENE相关技术……35-43
4.1朗讯简介……35-36
4.2朗讯系统……36-38
4.3……
4.4朗讯指数机制……38-40
4.5 Lucene的搜索……40-41
4.6朗讯的搜索结果……41-43
第5章教育信息垂直搜索引擎……43-60
5.1功能模块……43-55 [/BR/] 5.2系统架构……55-56 [/BR/] 5.3系统流程……56-57 [/BR/] 5.4系统用例分析……57-60

结论
搜索引擎的名称来源于其英文名称:搜索引擎(Search Engine),是一种搜索信息的引擎。可以说,整个搜索引擎的发展历史就是互联网网络的发展历史,因为网络用户总是需要从大量的网络信息中获取他们需要的信息,而这种需求随着互联网的快速增长而变得越来越迫切。
搜索引擎(Search engine)是指根据某些政策和特定的计算机程序在互联网上收集信息,组织和处理信息,并将处理后的信息显示给用户的系统。这是一个面向用户的检索服务系统。搜索引擎在互联网上是“无所不知的”。当人们在互联网上遇到任何问题时,他们首先想到和使用的是搜索引擎。搜索引擎几乎总是达不到预期,并将在一瞬间提供数以千计的参考答案和解决方案。提高信息查询的准确性和有效性是人们一直努力的方向。根据查询技术的发展过程,搜索引擎的发展经历了两个主要阶段:第一阶段涵盖1990年至1998年。在此期间,搜索引擎主要集中于解决如何从大量网页中快速有效地获得更完整的搜索结果,开始使用信息收集方法(如爬虫)和信息组织方法(如网络目录)。代表性的搜索引擎包括阿尔塔维斯塔等。;第二阶段的时间跨度约为1998年至2004年。