> 硕士毕业论文 > 36900字硕士毕业论文基于Nutch概念的农业新闻搜索引擎的设计与优化

36900字硕士毕业论文基于Nutch概念的农业新闻搜索引擎的设计与优化

论文类型:硕士毕业论文
论文字数:36900字
论点:搜索引擎,网页,本体
论文概述:

在农业知识网格平台中,知识问答系统需要从网络搜集农业信息,建立和丰富本地知识库,提供向用户提供信息检索功能。为此,本文实现了农业信息搜索引擎系统,并针对该系统的一些不足进

论文正文:

第一章引言

1.1研究背景
互联网的出现和发展以及计算机的迅速普及使得越来越多的人开始从互联网上获取信息和资源,这对推动整个社会的信息化起到了巨大的作用。从原始网页内容的浏览器到信息资源的生产者和共享者,互联网得到了极大的丰富。然而,随着互联网的不断发展和网络资源的不断扩展,如何规范和有效地共享和管理这些资源是目前互联网面临的关键问题,也是下一代的主要研究方向。针对上述问题,伯尔曼在2001年首次提出了知识网格的概念。他指出:“知识网格的作用是通过网格技术和数据挖掘实现大规模在线数据集的知识提取和融合,使搜索引擎能够智能地推理和回答搜索问题,并从大规模数据中获得结果。”诸葛海还对知识网格做出了更全面的定义,并构建了知识网格模型。他认为知识网格是一个智能环境,使用户能够有效地获取、共享、发布和管理知识资源。吉林大学计算机学院符号计算与知识工程重点实验室,针对数字农业信息领域,承担了国家863项目“数字农业知识网格技术的研究与应用”,对农业信息知识网格进行了深入研究,实现了基于网络的分布式农业知识网格平台。该平台利用数据挖掘、语义检索、本体、信息融合等技术实现了基于语义检索的知识问答系统、基于数据挖掘的农业咨询系统和基于专家系统的农业生产决策支持系统,最终实现了知识问答、病虫害防治和预测、精准施肥和价格预测的功能。本文所做的工作是构建一个面向知识问答系统的农业信息搜索引擎,实现农业信息收集、查询和检索的功能,并对农业信息搜索引擎的一些不足之处进行相应的改进和优化

1.2研究现状
搜索引擎在整个互联网的发展中发挥着重要作用,已经成为绝大多数互联网用户进入互联网世界的门户。搜索引擎的搜索结果质量对整个互联网的发展起着重要的作用。随着搜索引擎的发展,互联网上的信件数量呈指数级增长。然而,并非所有网页都包含对用户有用的信息。海量信息包含大量冗余信息。因此,搜索引擎技术的优化和改进已经成为当前搜索引擎需要解决的问题,也是搜索引擎技术的发展方向。
目前,搜索引擎公司和研究人员已经提出并实施了许多搜索引擎优化方法。这些方法从不同角度研究搜索引擎的改进和优化。一种基于网络链接分析算法的改进优化方法。2009年,陈晓飞等人[3]基于谷歌的PageRank方法,实现了基于网页质量的QPR算法。基于用户日志分析的优化方法。2003年,崔航等人l4]实现了基于用户日志分析的搜索词扩展。基于用户点击行为分析的优化方法。2008年,刘奕群等人
第2章搜索引擎相关技术实现了基于用户查询和点击行为分析的搜索结果自动评估。基于改善用户体验的优化方法。谷歌搜索(Google search)增加了网页预览功能,允许用户在不进入网站的情况下提前预览网页内容。奇虎问答增加了海报的作者、论坛名称、访问量和对论坛类型网页的回复数量。

1.3本文
的主要工作如下:
(1)实现了一个农业信息搜索引擎。本文重点分析了搜索引擎的工作原理和体系结构,并对开源搜索引擎Nutch进行了深入的研究和探索。在此基础上,实现了农业信息和搜索引擎。
(2)基于农业信息搜索引擎,实现了以下三个方面的改进和优化:
1。网页分析模块的改进。基于网页主题信息抽取技术,对超文本标记语言文档进行分析,并将其转换成DOM树结构。然后,基于STU-DOM树方法,向DOM树节点添加一定的语义信息。通过这些语义信息,判断节点的语义相关性,在网页表面分析阶段实现主题信息提取和非主题信息过滤。
2。抽象提取模块的改进。在传统的基于统计的自动摘要提取技术的基础上,增加了对文本特征的判断,并从词频、句型和提示词等方面相应地分配句子权重。最后,提取几个权重最高的句子,并按照文章的顺序作为摘要句子输出。
3。查询扩展模块的实现。基于用户搜索词和搜索结果,获取相关搜索词,实现扩展查询功能。它是通过查询领域本体来实现的。通过建立领域本体,可以根据用户的搜索词查询本体中较低的词、同义词和词的实例,从而实现推荐相关词的功能。

[5]

本章首先简要回顾了搜索引擎的基本知识,包括搜索引擎的分类和主要评价指标。随后,详细介绍了搜索引擎的工作原理,包括网页捕获模块、网页分析模块、网页索引模块和网页检索模块。最后,介绍了开源搜索引擎Nutch的工作原理和体系结构。本章为以后搜索引擎的发展提供了相应的理论基础。

2.1搜索引擎相关知识搜索引擎分类
(1)基于爬虫的自动搜索引擎基于爬虫的自动搜索引擎是一个真正的搜索引擎。它通过网络爬虫(web crawler)的网络爬行功能收集互联网上的网站信息,建立索引库,匹配用户的查询关键词,最后根据网页的匹配程度,按照一定的排序规则,将符合条件的结果返回给用户。国内外的代表有谷歌、百度、必应等。基于爬虫的自动搜索引擎具有信息丰富、检索功能强、信息更新快等优点。但与此同时,也存在一些不足。过多的信息会降低相应的精度比。此外,查询结果中重复链接太多,层次结构不清楚。
(2)目录索引型搜索引擎目录索引搜索引擎是ntemet早期发展中出现的一种搜索引擎。这种搜索引擎的表现形式是根据目录分类向用户显示网站链接。由于网站的人工分类,信息质量高,查询精度也高。然而,随着网站数量的增加,手工维护的工作量太大。雅虎和DMOZ是典型的目录索引搜索引擎。

第3章搜索引擎的改进和优化..............................23-39
3.1基于网页信息抽取技术的网页分析..............................23-28
3.2基于文本特征和统计方法的摘要..............................28-31[/ Br/] 3.3基于本体的查询扩展模块的实现..............................31-38
3.3.1本体相关概念和技术..............................32-35
3.3.2领域本体的构建..............................35-36 [/BR/] 3.3.3基于本体的查询扩展..............................36-38 [/BR/] 3.4本章概述..............................38-39
第四章农业信息搜索引擎的设计..............................39-48
4.1系统功能..............................39
4.2系统总体设计..............................39-40
4.3系统详细设计..............................40-47 [/BR/] 4.3.1网络捕获模块的实施..............................40-41 [/BR/] 4.3.2网络预处理模块的实现..............................41-44[/br/ ] 4.3.3信息检索模块的实施..............................44-47
4.4本章概述..............................47-48
第5章系统运行结果和效果比较..............................48-53
5.1系统环境..............................48-49
5.1.1操作平台..............................48
5.1.2发展语言..............................48
5.1.3发展工具..............................48-49 [/BR/] 5.2系统实施..............................49-52
5.3本章概述..............................52-53

结论

本文的工作是基于国家863项目“数字农业知识网格技术的研究与应用”。该项目基于智能推理、语义检索、数据挖掘、本体和数据融合等关键技术。它为用户提供了农产品价格预测、农作物精确施肥、农业查询知识和病虫害预测与控制等功能。
本文实现了一个农业信息搜索引擎,为本项目中的知识问答系统提供农业信息收集和检索功能,并为本地知识库的建设和扩展提供丰富的网络资源。本文的主要工作包括农业信息搜索引擎系统的实现以及系统的改进和优化。通过对搜索引擎工作原理和体系结构的研究,以及对开源搜索引擎Nutch的深入研究和探索,实现了基于Nutch的农业信息搜索引擎系统。针对农业信息搜索引擎的不足,本文从三个方面进行了改进和优化。
1。网页解析模块得到了改进。在网页分析模块中,增加了网页主题信息提取机制。基于STU-DOM树方法,通过节点的语义属性值计算DOM节点的语义相关性,实现网页中主题信息的提取和非主题信息的过滤,提高查询的准确性。
2。对抽象提取模块进行了改进。在传统的基于统计的摘要提取的基础上,增加了基于文本特征的判断,并从词频、句型等方面更精细地分配句子权重,提高了摘要提取的准确性。
3。查询扩展模块的实现。本文采用了基于领域本体的查询扩展方法。通过构建领域本体,然后根据本体中的概念层次,获取用户搜索词的低位词、同义词或实例作为相关词,从而实现语义层面的查询扩展。

参考
[1]vasconelos,E.A .农村交通和接入。运输地理学杂志,1997,5 (2):127-136。
[2]里布切斯特,爱德华兹,b .中心与地方:农村教育政策与实践,[J]。农村研究杂志,1999,15 (1):49-63。
[3]图特希尔,S.J .农村教育创新方法[J .]。农村信息中心出版物,2000年,72页。
[4]布朗,P. H .,帕克,a .中国农村的教育与贫困[。教育经济学评论,2002 (21):523-541。
[5]鲍克,欧共体。规模和环境如何影响农村学校的教育[J]。《农村教育家》,2004,25(3):38-42。
[6]汉纳姆,威赫,欧文,麻省理工学院远程教育在农村学校的应用[J]。农村教育研究杂志,2009,24(3):1-15。
[7]托姆利提乌,阿,莫拉鲁,阿。罗马尼亚农村教育:现状与前景[。《过程社会与行为科学》,2010,2 (2):402-406。
[8]坦桑尼亚拉奥市姆塔哈布瓦,《坦桑尼亚的学前教育:来自城市和农村教室的观察》,[,1998年。国际教育发展杂志,2010,30(3):227-235。[/比尔/][9]霍夫曼,《决策:教育的作用》,[。美国农业经济学杂志,1974,56:85-97。
[10]范恩,农民的教育和管理效率[J]。《经济学和统计学评论》,1975,57:452-461。