> 硕士毕业论文 > 43000字硕士毕业论文教育新闻网页信息抽取系统研究

43000字硕士毕业论文教育新闻网页信息抽取系统研究

论文类型:硕士毕业论文
论文字数:43000字
论点:抽取,信息,网页
论文概述:

通过对大量教育网新闻网页的结构和特征进行统计分析,提出了新闻标题、发布时间、来源及作者相关信息的抽取的启发式规则,利用这些规则来从网页中把所需要的信息所在的候选标签文本抽

论文正文:

第一章导言

   
1.1研究意义和背景    随着计算机技术、通讯技术的飞速发展以及个人计算机的普及,Internet作为一个全球网络,对人类生活、工作、学习以及商务活动的作用越来越重要,可以说这是一个基于网络的时代。企业以及个人通过建立自己的网站或网页来发布信息与资源,同时又通过网络来寻求帮助,获取信息。Web己成为人们获取信息的主要来源,然而网络在方便快捷带来大量信息的同时,Web上的数据也在一直呈几何级数的增长。根据2012年1月16口中国互联网信息中心(CNNIC)在京发布的第29次中国互联网络发展状况统计报告,截止到2011年12月底,中国网页数量为866亿个,比2010年同期增长44.3 %。面临数据爆炸的挑战,我们常常会感到被数据淹没却仍觉得知识饥饿的困惑,缺乏适当的工具,面对着浩瀚如烟的数据而手足无措,难免会有“入宝山而空手返”的遗憾。那么如何才能不被信息的汪洋大海所淹没,从中发现有用的知识,提高信息的利用率?在这种背景下,搜索引擎出现了。它帮助人们通过给定的关键词来获取相关的页面。然而,搜索引擎只是部分缓解了信息搜索的问题,结果并不能十分令人满意。我们所需要的最理想的情形是:互联网作为一个信息源能像数据库一样被查询。但目前Web数据大都以HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好。这使得应用程序无法直接解析并利用Web上的海量信息,为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有Web信息源,将网页上的信息以更为结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能。现有的Web的信息抽取技术不但可以直接定位到用户所需的信息,而且采用一定的方式增加了语义和模式信息,为Web查询提供了更为精确的方法,使Web信息的再利用成为可能,因此有着明显的优势和广阔的前景,是当今多个领域的研究热点。 Web信息抽取具有下面两个特点:    第一,它处理的对象是海量信息,这些信息所处平台是异构的,信息本身也是形态各异并被不断更新;    第二,目前Web文档大多是半结构化的,缺乏语义连续性和相关性,在对Web文档进行深层次处理时,需要用到一些时空复杂度较高的处理算法和技术。   
1.2国内外研究现状    目前,信息抽取研究成为热点并取得了丰硕成果,利用现有的技术水平能够建造全自动的信息抽取系统,且在有些任务方面的性能达到人类专家的水平,如英语和口语姓名识别的成功率达到人类专家的水平。    目前Web上的信息主要分为三类[f5,61:自由文本、结构化文本、半结构化文本。因此Web信息抽取的方法也主要分为三种类型,分别是:①从自由格式的文本中抽取出所需要的信息;②从半结构化的文本中,抽取出所需要的信息;③从结构化的文本中抽取出所需要的信息。对于自由格式的这类文本的抽取模式常常都是基于语法和语义的约束描述,这些约束将帮助确认文档中(待抽取)的相关信。因此为了利用这些抽取模式,文档都必须事先经过语法分析器和语义标志器的处理。随着Web信息的口益丰富,大量的符合语法和不符合语法的结构和半结构的文本信息资源开始被人们所接受。结构化的文本是指遵循预先定义的具有严格格式的文本,对于这种只需要使用所定义的各式来进行抽取即可。半结构化文本是介于非结构化文本和完全结构化文本之间的一种类型,此类文本在风格上常常是不合乎文法的,不遵循任何严格格式。下面分别对现有的一些Web信息抽取系统进行介绍。   
1.3研究目标与工作    本文主要目的是研究一种新闻网页信息抽取的方法,在保证一定的抽取精度的条件下,尽可能地对多种不同网站的新闻网页适用,为教育网新闻网页的信息抽取提供一种高效、可扩展的信息抽取方法。本文研究的主要内容所示对教育网新闻网页的标题、发布时间和信息来源的抽取。    具体完成的工作包括:    1)建立数据集;    2)分析新闻网页的结构,提出合适的基于网页结构的新闻网页分块方法;    3)根据网页结构提出新的新闻信息抽取的启发式规则;    4)利用数据集对新的启发式规则进行测试;    5)利用HMM对新闻网页进行信息抽取;    6)对比两种信息抽取方法的优缺点和适用范围;   
1.4论文内容安排    本文对当前己有的信息抽取方法进行改进,提出了新的启发式规则对信息进行抽取,提高了信息抽取的精确度。论文章节安排如下:    第一章:综合讲述了信息抽取的研究背景及意义,介绍了当前国内外的研究现状以及本文的主要工作和研究内容。    第二章:介绍了网页分块的有关技术方法以及信息抽取的相关技术。    第三章:详细介绍教育新闻信息抽取系统设计过程及用到的主要方法及改进方法。    第四章:介绍教育新闻信息抽取系统的实现过程。    第五章:介绍教育新闻信息抽取系统的实验结果并进行了分析。 最后对本课题进行总结,并提出下一步研究工作的重点。  第二章 网页分块与信.................... 15-28    2.1 网页基础 ................15-19        2.1.1 HTML...................... 15-17        2.1.2 文档对象............................ 17-19    2.2 网页解析...................... 19-22    2.3 信息抽取.......................... 22-27        2.3.1 信息抽取相关.................. 22-26        2.3.2 信息抽取效.............26-27    2.4 本章小结............................... 27-28第三章 教育新闻网页信............... 28-35    3.1 系统的设计目标.................... 28    3.2 系统总体架构...................... 28-29    3.3 系统模块的组................... 29-32        3.3.1 网页预处理模................. 30-31        3.3.2 网页分块模........................ 31        3.3.3 网页信息抽取...........31-32        3.3.4 GUI 模块设计..................... 32    3.4 系统的工作....................... 32-34..................................................  总结与展望    随着信息化的飞速发展,无论是企业、政府、学校等组织内部还是外部都存在着很多的信息源。而这些信息的数量众多,结构各异,如何能在海量的信息中快速准确的找到我们所需的信息就很重要了。在此基础上本文的主要工作是研究教育网新闻网页关键信息的抽取技术,设计并实现了教育新闻网页信息抽取系统。本文完成的主要工作包括:    (1)介绍了信息抽取系统研究的背景及意义,web信息信息抽取的特点及当前国内外信息抽取技术的研究现状。对当前己有的web信息系统进行了简单的介绍和分析,比较了每一种系统的优缺点及使用范围等。    (2)设计并实现了网页的预处理模块,该模块主要是对网页进行格式化,使得网页可以正常被解析,然后通过解析建立Dom树并把网页中那些与所要抽取的信息无关的结点从Dom树中移除。    (3)设计并实现了网页分块的模块,本模块主要是通过对网页中的结构布局标签和