30000字硕士毕业论文DeepWeb在查询界面匹配技术中的应用研究

硕士毕业论文

论文类型：硕士毕业论文

论文字数：30000字

论点：信息,匹配,数据库

论文概述：

问题提出目前Web技术不断发展，带来了信息的飞速增长，其中蕴含着海量的有价值信息。最新调查显示，目前整个Web超过了200,000TB的信息量，而且仍在快速的增长。Web中的信息主要通过网页

论文正文：

DeepWeb在查询界面匹配技术中的应用研究

第一章绪论

问题提出目前Web技术不断发展，带来了信息的飞速增长，其中蕴含着海量的有价值信息。最新调查显示[’]，目前整个Web超过了200,000TB的信息量，而且仍在快速的增长。Web中的信息主要通过网页的形式对外发布，不同网页的形式和内容差异很大，而且分布在Internet网上任何一个角落，造成了Web数据的异质性和缺乏结构性。由于以上的这些原因，使得自动从海量的Web信息中获取有价值的信息和数据变成一项很具有挑战性的任务。在Web领域的研究目的在于发展新的技术可以有效地从Web中获取有用的信息。到目前为止，为了有效利用Web上信息，所涉及的Web技术有数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。一图1.1存储在数据库中丰富的DeepWeb信息整个Web按照信息所蕴含的深度分为两类:SurfaceWeb和DeepWeboSurfaceWeb指能被普通搜索引擎利用爬虫程序通过超链接所检索到的信息，这些信息对搜索引擎是可见的。而对于DeepWeb而言，目前还没有一个统一的定义，一般是指Web中在线可访问的数据库，称为Web数据库。这些内容是由用户通过特定的查询接口提交查询，由后台数据库动态创建返回给访问者的，由于没有超链接指向这些动态页面，因而搜索引擎不能检索到。DeepWeb页面与SurfaceWeb页面在本质上有很大不同，DeepWeb页面内容存储在可访问的数据库中，如图1.1所示。DeepWeb之所以被人们备受关注，主要因为其信息的海量性和专业性。2000年7月，Brightplanet对DeepWeb做了一次较为全面的宏观统计，发布了DeepWeb的白皮书，指出整个Web中大约有43,000-96,000个Web数据库。UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算[f21，推测整个Web中有307000个提供Web数据库的网站、450000个Web数据库，比Brightplanet在2000年估计的数据库网站数目增长了3-7倍。以下是从宏观上对DeepWeb做了定量的调查统计，结果表明:(1)整个DeepWeb覆盖了世界的各个领域，例如商业、教育、政府等。但就单个DeepWeb而言，有超过50%的DeepWeb内容是特定于某个领域的，即领域专一化;(2)DeepWeb中的后台数据库大多是结构化的，其中结构化的数据库是非结构化的3.4倍之多;(3)Web数据库查询接口往往位于站点浅层，94%之多的大量Web数据库查询接口可以在站点前3层发现;(4)对DeepWeb的数据访问量比SurfaceWeb要高出15%，其信息质量远远高于SurfaceWeb;(5)DeepWeb上95%的信息是可以公开访问的，即可以免费获取。目前一些DeepWeb目录服务已经开始索引Web数据库，但是它们的覆盖率比较小，仅为0.2%一15.6%0尽管DeepWeb信息具有如上众多优点，但是由于目前Web数据库存在规模大、自治性、异质性、动态性等问题，要想全面而准确地利用DeepWeb信息并不是一件容易的事，因此对于DeepWeb的研究日益成为研究热点。目前在DeepWeb这个领域，己经建立了一个DeepWeb信息集成系统框架。查询接口匹配是查询接口集成至关重要的一步，也是整个DeepWeb信息集成系统的基础，因此查询接口匹配技术在Deepweb研究领域有着重要地位。目前国内这方面的研究很少。参考文献[1] Fetterly D, Manasse M, Najork M, et al. A large-scale study of the evolution of web pages[C]//Proceedings of the 12th International World Wide Web Conference, Budapest, 2003:669-678 Chang K. C, He B, Li C, et al. Structured databases on the web: Observations andImplications [J]. SIGMOD Record, 2004, 33(3): 61-70 Deep Web Technology汇EB/OL]. (2005-10). http://www.deepwebtech.com Invisiable.com [EB/OL]. (2005-10). http://www.invisiable.com M. K. Bergman. The Deep Web: Surfacing Hidden Value [J]. The Journal of Electronic Publishing, 2001，7( I ): 8912-8914 MetaQuerier Research Group [EB/OL]. (2006-06). http://metaquerier.cs.uiuc.edu/ Hasan Davulcu, Juliana Freire, Michael Kifer, et al. A layered architecture for queryingdynamic Web content[C]//Proc of International Conference on Management of Data. NewYork: ACM Press, 1999: S. Raghavan, H. Garcia-Molina. Crawling the hidden Web[C]//Proceedings of the 27thInternational Conference on Very Large Data Bases, Roma, Italy, 2001:129-138 QProber Research Group [EB/OL]. Accessible at http://qprober.cs.columbia.edu/Oct 2005 Robert B.Doorenbos, Oren Etzioni, Daniels Weld. A scalable comparison shopping agentfor the World-Wide Web[CJ//Proc of the First International Conference on AutonomousL.Barbosa, J.Freire. Siphoning hidden-web data through keyword-based interfaces[CJ//Procof the Brazilian Symposium on Database, New York: ACM Press, 2004: 309-321Michael K. Bergman. Deep Web White Paper [EB/OL]. (2004-10). http://brighplanet.comChris Sherman, Gary Price. The Invisible Web: Uncovering Information Sources SearchEngines Can\'t See [J]. Library Trends. 2003(2): 282-298中国互联网络信息中心((CNNIC)，第23次中国互联网络发展状况统计报告〔R].2009,23-25 Cope J., Craswel N., Hawking D. Automated discovery of search interfaces on the Web 摘要 5-7 ABSTRACT 7-8 第一章绪论 11-20 1.1 问题提出 11-13 1.2 研究现状 13-18 1.3 论文研究内容 18 1.4 论文结构安排 18-20 第二章查询接口匹配技术 20-35 2.1 Deep Web信息集成系统 20-24 2.2 查询接口匹配技术 24-32 2.2.1 基于模式的匹配技术 25-29 2.2.2 基于实例的匹配技术 29-31 2.2.3 现有技术的不足 31-32 2.3 本文研究框架 32-34 2.4 本章小结 34-35 第三章基于关联挖掘的成组属性生成方法 35-46 3.1 工作流程 35 3.2 数据预处理 35-36 3.3 关联挖掘 36-43 3.3.1 相关度度量标准 38-40 3.3.2 属性矩阵 40-43 3.4 实验步骤与结果分析 43-45 3.4.1 实验步骤 43 3.4.2 结果分析 43-45 3.5 本章小结 45-46 第四章基于语义聚类的同义属性生成方法 46-55 4.1 工作流程 46 4.2 语义聚类 46-50 4.2.1 语义相似度 47-49 4.2.2 数据域相似度 49-50 4.3 匹配筛选 50-52 4.3.1 排序 51-52 4.3.2 选择 52 4.4 实验结果分析 52-54 4.5 本章小结 54-55 第五章面向图书领域的Deep Web集成系统 55-69 5.1 系统目标 55-57 5.1.1 性能目标 55-56 5.1.2 功能目标 56-57 5.2 系统总体设计 57-58 5.3 系统详细设计 58-62 5.3.1 检索模块设计 58-59 5.3.2 配置模块设计 59-62 5.4 系统实现 62-68 5.4.1 检索模块实现 62-65 5.4.2 配置模块实现 65-68 5.5 本章小结 68-69 第六章总结与展望 69-71 6.1 工作总结 69 6.2 工作展望 69-71 致谢 71-72

30000字硕士毕业论文DeepWeb在查询界面匹配技术中的应用研究

论文类型：硕士毕业论文

论文字数：30000字

论点：信息,匹配,数据库

论文概述：

论文正文：

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

论文分类

30000字硕士毕业论文DeepWeb在查询界面匹配技术中的应用研究

论文类型：硕士毕业论文

论文字数：30000字

论点：信息,匹配,数据库

论文概述：

论文正文：

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

论文分类