> 硕士毕业论文 > 30000字硕士毕业论文DeepWeb在查询界面匹配技术中的应用研究

30000字硕士毕业论文DeepWeb在查询界面匹配技术中的应用研究

论文类型:硕士毕业论文
论文字数:30000字
论点:信息,匹配,数据库
论文概述:

问题提出目前Web技术不断发展,带来了信息的飞速增长,其中蕴含着海量的有价值信息。最新调查显示,目前整个Web超过了200,000TB的信息量,而且仍在快速的增长。Web中的信息主要通过网页

论文正文:

DeepWeb在查询界面匹配技术中的应用研究

第一章绪论

         问题提出目前Web技术不断发展,带来了信息的飞速增长,其中蕴含着海量的有价值信息。最新调查显示[’],目前整个Web超过了200,000TB的信息量,而且仍在快速的增长。Web中的信息主要通过网页的形式对外发布,不同网页的形式和内容差异很大,而且分布在Internet网上任何一个角落,造成了Web数据的异质性和缺乏结构性。由于以上的这些原因,使得自动从海量的Web信息中获取有价值的信息和数据变成一项很具有挑战性的任务。在Web领域的研究目的在于发展新的技术可以有效地从Web中获取有用的信息。到目前为止,为了有效利用Web上信息,所涉及的Web技术有数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。一图1.1存储在数据库中丰富的DeepWeb信息整个Web按照信息所蕴含的深度分为两类:SurfaceWeb和DeepWeboSurfaceWeb指能被普通搜索引擎利用爬虫程序通过超链接所检索到的信息,这些信息对搜索引擎是可见的。         而对于DeepWeb而言,目前还没有一个统一的定义,一般是指Web中在线可访问的数据库,称为Web数据库。这些内容是由用户通过特定的查询接口提交查询,由后台数据库动态创建返回给访问者的,由于没有超链接指向这些动态页面,因而搜索引擎不能检索到。DeepWeb页面与SurfaceWeb页面在本质上有很大不同,DeepWeb页面内容存储在可访问的数据库中,如图1.1所示。DeepWeb之所以被人们备受关注,主要因为其信息的海量性和专业性。2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了DeepWeb的白皮书,指出整个Web中大约有43,000-96,000个Web数据库。UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算[f21,推测整个Web中有307000个提供Web数据库的网站、450000个Web数据库,比Brightplanet在2000年估计的数据库网站数目增长了3-7倍。以下是从宏观上对DeepWeb做了定量的调查统计,结果表明:(1)整个DeepWeb覆盖了世界的各个领域,例如商业、教育、政府等。但就单个DeepWeb而言,有超过50%的DeepWeb内容是特定于某个领域的,即领域专一化;(2)DeepWeb中的后台数据库大多是结构化的,其中结构化的数据库是非结构化的3.4倍之多;(3)Web数据库查询接口往往位于站点浅层,94%之多的大量Web数据库查询接口可以在站点前3层发现;(4)对DeepWeb的数据访问量比SurfaceWeb要高出15%,其信息质量远远高于SurfaceWeb;(5)DeepWeb上95%的信息是可以公开访问的,即可以免费获取。         目前一些DeepWeb目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%一15.6%0尽管DeepWeb信息具有如上众多优点,但是由于目前Web数据库存在规模大、自治性、异质性、动态性等问题,要想全面而准确地利用DeepWeb信息并不是一件容易的事,因此对于DeepWeb的研究日益成为研究热点。目前在DeepWeb这个领域,己经建立了一个DeepWeb信息集成系统框架。查询接口匹配是查询接口集成至关重要的一步,也是整个DeepWeb信息集成系统的基础,因此查询接口匹配技术在Deepweb研究领域有着重要地位。目前国内这方面的研究很少。  参考文献[1]  Fetterly D, Manasse M, Najork M, et al. A large-scale study of the evolution of web pages[C]//Proceedings of the 12th International World Wide Web Conference, Budapest, 2003:669-678   Chang K. C, He B, Li C, et al. Structured databases on the web: Observations andImplications [J]. SIGMOD Record, 2004, 33(3): 61-70   Deep Web Technology汇EB/OL]. (2005-10). http://www.deepwebtech.com   Invisiable.com [EB/OL]. (2005-10). http://www.invisiable.com   M. K. Bergman. The Deep Web: Surfacing Hidden Value [J]. The Journal of Electronic Publishing, 2001,7( I ): 8912-8914   MetaQuerier Research Group [EB/OL]. (2006-06). http://metaquerier.cs.uiuc.edu/   Hasan Davulcu, Juliana Freire, Michael Kifer, et al. A layered architecture for queryingdynamic Web content[C]//Proc of International Conference on Management of Data. NewYork: ACM Press, 1999:    S. Raghavan, H. Garcia-Molina. Crawling the hidden Web[C]//Proceedings of the 27thInternational Conference on Very Large Data Bases, Roma, Italy, 2001:129-138   QProber Research Group [EB/OL]. Accessible at http://qprober.cs.columbia.edu/Oct 2005 Robert B.Doorenbos, Oren Etzioni, Daniels Weld. A scalable comparison shopping agentfor the World-Wide Web[CJ//Proc of the First International Conference on AutonomousL.Barbosa, J.Freire. Siphoning hidden-web data through keyword-based interfaces[CJ//Procof the Brazilian Symposium on Database, New York: ACM Press, 2004: 309-321Michael K. Bergman. Deep Web White Paper [EB/OL]. (2004-10). http://brighplanet.comChris Sherman, Gary Price. The Invisible Web: Uncovering Information Sources SearchEngines Can\'t See [J]. Library Trends. 2003(2): 282-298中国互联网络信息中心((CNNIC),第23次中国互联网络发展状况统计报告〔R].2009,23-25   Cope J., Craswel N., Hawking D. Automated discovery of search interfaces on the Web  摘要 5-7 ABSTRACT 7-8 第一章 绪论 11-20     1.1 问题提出 11-13     1.2 研究现状 13-18     1.3 论文研究内容 18     1.4 论文结构安排 18-20 第二章 查询接口匹配技术 20-35     2.1 Deep Web信息集成系统 20-24     2.2 查询接口匹配技术 24-32         2.2.1 基于模式的匹配技术 25-29         2.2.2 基于实例的匹配技术 29-31         2.2.3 现有技术的不足 31-32     2.3 本文研究框架 32-34     2.4 本章小结 34-35 第三章 基于关联挖掘的成组属性生成方法 35-46     3.1 工作流程 35     3.2 数据预处理 35-36     3.3 关联挖掘 36-43         3.3.1 相关度度量标准 38-40         3.3.2 属性矩阵 40-43     3.4 实验步骤与结果分析 43-45         3.4.1 实验步骤 43         3.4.2 结果分析 43-45     3.5 本章小结 45-46 第四章 基于语义聚类的同义属性生成方法 46-55     4.1 工作流程 46     4.2 语义聚类 46-50         4.2.1 语义相似度 47-49         4.2.2 数据域相似度 49-50     4.3 匹配筛选 50-52         4.3.1 排序 51-52         4.3.2 选择 52     4.4 实验结果分析 52-54     4.5 本章小结 54-55 第五章 面向图书领域的Deep Web集成系统 55-69     5.1 系统目标 55-57         5.1.1 性能目标 55-56         5.1.2 功能目标 56-57     5.2 系统总体设计 57-58     5.3 系统详细设计 58-62         5.3.1 检索模块设计 58-59         5.3.2 配置模块设计 59-62     5.4 系统实现 62-68         5.4.1 检索模块实现 62-65         5.4.2 配置模块实现 65-68     5.5 本章小结 68-69 第六章 总结与展望 69-71     6.1 工作总结 69     6.2 工作展望 69-71 致谢 71-72