> 硕士毕业论文 > 41000字硕士毕业论文浅析教育新闻采集系统的设计

41000字硕士毕业论文浅析教育新闻采集系统的设计

论文类型:硕士毕业论文
论文字数:41000字
论点:网页,信息,抽取
论文概述:

主题信息采集系统是构建垂直搜索引擎等应用的关键技术之一,它的性能直接影响垂直搜索引擎的性能。因此,本文的工作是研究教育新闻采集及新闻信息的抽取。由浅入深的介绍了主题信息采

论文正文:

第一章导言

1.1研究背景和意义
近年来,随着互联网规模和用户的不断增长,互联网应用发展迅速,中国信息化水平也迅速提高。互联网已经成为人们了解世界、讨论问题、购物和放松,甚至从事学术研究和商业活动的重要领域。由于互联网的开放性和快速沟通能力,它已经成为人们发布和获取信息的重要渠道。据中国互联网络信息中心第29期《[日报》报道,截至2011年12月底,中国互联网用户数量已超过5亿,达到5.13亿。中国的网页数量为866亿,比2010年同期增长44.3%/br/]。其中,在线新闻是互联网上第四大应用,[Ll的使用率为71.5%。网络新闻依托互联网,利用其优势推动新闻报道的发展,迎来一个新的媒体时代。网络新闻以其快速、及时、多样、互动的特点,迅速成为广大网民的主要信息来源之一。
在线新闻的出现大大增加了新闻信息量。此外,较低的网络新闻门槛导致网络新闻种类繁多,质量参差不齐,垃圾邮件猖獗,影响了人们获取信息的速度和便利性。为了解决这个问题,谷歌和百度等主要商业搜索引擎推出了自己的新闻聚合平台。这些系统在一定程度上缓解了人们在网上阅读新闻的困难。
然而,现有的新闻聚合平台在提供便利的同时也存在一些不足:
(1)信息分布不平衡:不同行业的新闻数量差异很大,教育或科学内容相对较少。
(2)处理粒度大:这些系统研究和处理的对象是整个互联网上的新闻,处理粒度相对较大,因此这些平台不适合大学、企业等组织。
(3)技术未公开:由于行业竞争或商业秘密,这些平台的算法未公开,新闻的可靠性有待提高。
(4)信息来源不明:大部分是商业内容,不可避免地包含一些虚假和不真实的内容,一些搜索引擎人为地干扰结果的排名。
因此,人们对新闻聚合平台提出了新的要求,希望开发针对特定领域和特定群体、消耗相对较少资源的新闻系统。
针对上述问题,本课题整合了主题收集、网页动态更新、网络信息抽取等信息处理技术,设计了一个教育新闻收集系统,为教育新闻聚合平台提供准确、及时、干净的教育新闻数据。

1.2国内外研究现状

1.2.1主题爬虫
主题爬虫是新闻聚合平台和垂直搜索引擎的重要组成部分。它是新闻聚合平台和垂直搜索引擎的数据源,直接决定了结果的质量。常见的抓取器使用网址获取网页,然后解析网页,获取新网址,抓取新网页,并循环浏览,直到满足最终条件。在此基础上,主题爬虫增加了主题过滤功能,使爬虫能够抓取尽可能多的与主题相关的网页,并抓取尽可能少的无关网页。在减少资源消耗的同时,它还可以提高后续操作的准确性,因为减少了无用和冗余的信息。
最早的主题爬虫出现在1994年。这是一个使用查询来引导信息收集的系统——鱼搜索系统。下面描述了一些代表性的系统。

1.2.2网页更新策略
已经进入网络2.0时代,网络开发技术已经开始成熟,网页的修改和更新比以前更加容易。因此,互联网上的网页更新越来越频繁,更新周期越来越短。文学[·奥诺的研究表明,目前的互联网每周产生3.2亿个新页面,20%的页面将在一年内消失,50%的文档将在一年内改变。与此同时,人们对信息的时效性要求越来越高。即使是真实而有价值的信息,一旦失去时效性,也会被忽略。
早期的搜索引擎通常使用固定的时间段来更新本地网页库的信息,并且通常每月或每周进行一次全面的数据更新。然而,随着网页的爆炸性增长,这种策略变得不可行。因此,出现了增量更新方法。基本的想法是,互联网上的一些网页是可变的,而另一些是非常稳定的。如果每次更新过程中只更新已更改的网页,可以节省大量资源,缩短更新周期。
随着研究的深入,赵军和阿尼班德等学者总结了两种更新策略:统一更新策略和个体更新策略。如果收集系统以相同的频率更新本地网页库中的所有网页,则称为统一更新策略。如果收集系统根据每个页面的频率和站点变化来更新页面,这被称为单独更新策略。
在所有网页同等重要的情况下,频繁收集变化频繁的网页无法显著提高整体及时性。然而,实际情况是网页的重要性不同。通过综合考虑网络拓扑图、网页变化规律和网页时效性,学者们提出了更实用的更新策略。

1.2.3网页信息抽取
网页信息抽取:WIE)起源于文本理解,始于20世纪60年代中期。它主要是从自然语言文本中获取结构化信息的研究。20世纪80年代后期,由于文本数量的快速增长和信息理解会议的推动,信息抽取技术的研究开始蓬勃发展。后来,互联网的发展使得信息抽取向网络信息抽取发展。网络信息抽取和传统信息抽取的最大区别在于数据是半结构化的。
1.3主要研究工作和内容
本文的主要目的是设计并实现一个高性能的教育新闻采集系统,为教育新闻聚合平台提供有效、新鲜、干净的数据信息。针对当前通用采集系统和主题采集系统中存在的两个问题,以及当前木棉系统中主题信息提取模块中存在的两个问题,提出了相应的解决方案,并对测试和结果进行了分析。
有待解决的主要问题有以下三个:
1)现有话题收集方法的话题漂移;
2)现有的网页更新策略不符合导航页面的更新特点,导致收集的时效性差;
3)目前的木棉搜索系统主题信息提取通用性差,网页标题提取准确率低。
完成的具体工作包括:
1)调查国内外信息采集系统和主题爬虫系统的研究现状和成果。
2)研究了当前信息采集系统中网页更新的策略和方法,详细分析了导航网页更新的周期和规律。
3)研究了网络信息抽取的研究现状和木棉搜索中的主题信息抽取问题。
4)设计并实现了一个基于链接块锚文本的教育新闻过滤模块。
5)设计并实现教育新闻采集的动态调度模块。
6)设计并实现一个网页标题和文本提取系统。
7)测试系统的准确性、性能和结果分析。
8)设计并实施高效的教育新闻收集系统。

1.4论文组织结构
本文分析了现有的主题收集策略、动态调度策略和信息抽取方法,并提出了相应的改进方法。最后,设计并实现了一个教育新闻动态采集系统。
论文的章节安排如下:
第一章:全面论述本课题的研究背景和意义,介绍国内外的研究现状,以及本文的研究工作和内容。
第二章:研究课题的相关技术,分析课题过滤、动态调度和信息抽取的难点
第三章:设计系统架构和模块,详细描述系统模块和工作流程。
第4章:详细介绍每个模块的具体设计和实现。
第五章:介绍和分析系统的实验结果。
最后,本文对课题进行了总结,并提出了下一步研究工作的重点。

第二章相关理论..............................16-28
2.1信息收集系统..............................16-20
2.1.1下载............................16-17
2.1.2网页解析..............................17-18
2.1.3网址重复数据消除..............................18
2.1.4网址安排...................18-19
2.1.5工作流程..............................19-20
2.2主题收集相关................................20-22
2.2.1基于文本................................20-21
2.2.2基于分类..............................21[/比尔/] 2.2.3基于链接分析..............................21-22 [/BR/] 2.3动态信息收集............................22-24 [/BR/] 2.3.1网页更新周期..............................23
2.3.2动态收购策略............................23-24
2.4网页信息提取……24-27
2.4.1..............................24-25
2.4.2 DOM..............................25-26
2.4.3 SAX.............................26
2.4.4基于块的信函……26-27
2.5本章概述..............................27-28
第三章教育新闻采集部..............................28-33
3.1系统的设计目标..............................28
3.2系统构成的工作流程................................28-29
3.3系统..............................29-31
3.4系统架构................................31-32
3.5本章概述.............................................32-33
第四章系统的详细设置..............................33-57
.................................................................................................................

摘要和前景
主题信息收集系统是构建垂直搜索引擎和其他应用的关键技术之一。它的性能直接影响垂直搜索引擎的性能。因此,本文的工作是研究教育新闻的收集和新闻信息的提取。介绍了主题信息采集系统、动态更新技术和网页信息抽取的相关原理和技术,设计并实现了一个教育新闻采集系统。本文完成的具体工作包括:
(1)调查国内外主题信息采集系统、动态更新技术和信息抽取系统的研究现状和成果,分析研究网络信息采集系统的工作原理和组成,深化主题信息采集系统的采集策略、动态更新技术、网页信息抽取等问题。
(2)设计并实现了一种基于链接块的主题过滤算法,解决了网络新词造成的锚文本长度短、主题方向漂移等问题。
(3)设计并实现了教育新闻动态调度模块,实现了新闻的动态收集,有效提高了本地网页库的时效性和新闻内容的时效性。
(4)采用浅层文本特征和统计方法提取标题和文本,具有良好的通用性和速度,大大提高了后续处理的准确性。
(5)对上述三个主要模块分别进行了测试,验证了三个模块的有效性,并对实验结果进行了分析。
虽然本文的研究取得了一些成果,但仍有一些不足需要改进,这也是未来工作的方向:
(1)该系统目前仅针对教育网站,处理的数据量不够大,因此需要在更大的数据量级上进行测试和优化。现在是海量数据的时代,如何有效地扩展到多节点、大数据采集是本系统需要解决的问题。
(2)该系统的某些模块在功能和性能方面仍需改进和提高。实际上,要找到一些问题,然后有针对性地解决它们需要很长时间。

参考
[1]任昌。基于多特征融合的网络对象自动定位技术研究。中国北方大学2011
[2]彭聪。移动网络环境下网页排名算法的研究。湖南大学2010
[3]董娟。基于页面结构分析的网页信息抽取方法研究。中国石油大学2010
[4]刘俊荣。基于行为识别的网页文本分类算法的研究与实现。北京邮电大学2010
[5]宋敖。网页去噪在互动电视中的应用与研究[。上海交通大学2011
[6]刘典型。多页面特殊网页的文本提取与合并技术研究[。湖南大学2010
[7]刘洋。基于内容的搜索引擎网页去重复研究[。江苏大学2010
[8]陈晔。面向用户体验的网络界面优化设计方法研究。重庆大学2010
[9]张瑞雪。基于DOM树的网页相似性研究及应用。大连理工大学2011
[10]余人。网页主题信息抽取方法研究[。山西大学2010