> 硕士毕业论文 > 30000字硕士毕业论文关系数据库的XML存储与查询探讨

30000字硕士毕业论文关系数据库的XML存储与查询探讨

论文类型:硕士毕业论文
论文字数:30000字
论点:关系,数据,查询
论文概述:

课题研究的背景和意义随着Internet和Intranet技术的迅速发展和网络计算模式的广泛应用,各应用领域建立了各种不同规模的信息系统。各信息系统大都自成体系,具有不同的数据格式,数据库的

论文正文:

  第一章绪论         1.1课题研究的背景和意义随着Internet和Intranet技术的迅速发展和网络计算模式的广泛应用,各应用领域建立了各种不同规模的信息系统。各信息系统大都自成体系,具有不同的数据格式,数据库的结构各不相同。导致各个系统间的交流阻抗很大,需要人工对信息进行转换和和输入。随着XML应用的普及,XML成为信息交换和编码的主流格式和事实标准。目前很多研究尝试在同一领域应用XML制定相应的数据描述规范,参与者按照这个规范描述数据,就可以有效地进行数据交换。但随着互联网上XML数据发布的指数式增长,管理现有的XML文档已变得越来越困难,因此对XML文档的有效存储和查询成为近几年的研究热点。由于关系数据库在存储、处理和管理数据方面的高效性,加之过去几十年里关系数据库技术已经发展地相当成熟,因此利用关系数据库来存储和查询XML数据是处理XML文档的一种有效手段。相对于关系数据库,XML在数据应用方面有很多优点:跨平台性,XML文件为纯文本文件,不受操作系统、软件平台的限制;具有基于DTD/Schema自描述语义的功能;XML不仅可以描述结构化数据,更可以有效描述半结构化甚至非结构化数据。相对于XML,关系数据库的优势在于:技术成熟、应用广泛、数据管理能力强、口数据安全程度高、具有稳定可靠的并发访问机制等。研究的目的就是把两者的优点结合起来,研究XML数据和关系数据的映射策略,从而达到“以关系数据库为存储手段,以XML格式数据为交换载体”的数据管理方式。         1.2本课题相关领域的历史、现状和前沿发展情况早期的XML数据以文档方式存储,以关键字查询等信息检索手段查询,这种方法简单、易用,但查询的效率非常低。目前,在存储和查询XML数据领域主要有两种方法:原生XML数据库和使能XML数据库。原生XML数据库分为两类:基于文本和基于模型。基于文本的原生XML数据库将XML作为文本存储,它可以是文件系统中的文件,关系数据库中的BLOB或特定的文件格式。基于模型的原生XML数据库根据文件构造一个内部模型并存储这个模型。目前已经有很多研究机构开发了纯XML数据库,国外有Lore}},Tamino}2},Timber}3}等,国内主要是人民大学的OrientX}4}。目前,大部分原生数据库采用深度优先的方法存储记录,这是因为深度优先实现起来简单,同时存储顺序与XML文档的原始顺序一致。广度优先的顺序还没有被采用,聚集存储的方法在OrientX中实现过。与其它存储方式相比,原生XML数据库可以完整地保留XML文档的信息,存储映射时不需要DTD结构,同时原生的XML数据库采用基于XML的查询界面,例如:XPath或DOM,适合XML本身的特点。然而原生的XML数据库缺乏细粒度的数据处理能力,不适合处理数据集中的XML文档。使能XML数据库,即在现有的关系数据库系统或面向对象数据库系统基础上扩展相应功能,使其能够胜任XML数据的处理。由于当前的面向对象数据库系统的性能仍不足以支持对大规模数据的复杂查询,因此基于关系数据库的存储查询是一种较有前景的方式。这种方法的优点是可以充分利用已有的非常成熟的关系数据库技术,集成现有的大量存储在关系数据库的商用数据,但这种处理方法不能利用XML数据自身的特点,如结构化、自描述性等,使得在处理XML数据的时候要经过多级复杂的转换,如存储XML数据时要将其转换为关系表或对象,在查询的时候要将XML查询语言转换为SQL或OQL,查询结果转换为XML文档等。目前许多研究者正在从事基于关系数据库系统处理XML数据的研究。国内有复旦大学的VXMLR}S]系统,国外有Content@XML}6]系统、MarkGraves}}}系统。         VXMLR先把XML模式映射为关系模式。然后把数据XML文档存入关系数据库中。查询时,先把XML查询语言重写为SQL语句,最后把查询结果重构为XML文档。VXMLR采用朴素的映射算法,用表外键表示元素的父子关系。VXMLR系统的局限是存储表太多,查询重写复杂,查询效率低下,查询结果不是原文档的片段。Content@XML是设在麻省Reading的Xyvision企业解决方案公司研制的一套内容管理系统,它可以在任何一种流行的关系数据库中存储XML文件。其好处是可以开展基于内容的协同工作,进行多通道内容输出。MarkGraves系统由MarkGraves提出,采用独立于文档的关系存储模式把XML存储到关系表中。独立于文档的关系存储的最基本思想是文档中每种结构类型都有自己的关系表:元素,属性和字符数据区域,还有一个文档表和元素与它们的组成部分(子元素或字符数据)之间的父亲/孩子关系表。MarkGraves系统的缺点是所有内容,属性混合存储,存储结构不直观。当今,包括甲骨文、微软在内的数据库厂商都在走从传统关系数据库中支持XML的路线,并且在其成熟的关系数据库产品中提供了对XML的支持。毫无疑问,在接下来的几年里,所有的数据库产品都需要能够快速地用XML格式语言进行数据的校验、存储和恢复。 参考文献[1]McHugh J, Abiteboul S, Goldman R, et al. Lore :A Database Management System forsemistructured Data[J].SIGMOD Record,1997,26(3):54=66Software AG Company,Tamino XML Server[EB/OL].http://www.softwareag.com/tamino/Jagadish H V, AL-Khalifa S, et al. TIMBER:A Native XML Database[R].University ofMichigan: 2002Xiaofeng Meng, Yu Wang, etc. OrientX: A Schema based Native XML DatabaseSystem[R].Berlin,Germany:2003S Abiteboul, D.Quass, J.McHugh, J.Widom and J.Wiener, The Lorel query language forsemistructured data[J].International Journal on Digital Librariesl,1997,4(3):68-88XML“走进”数据库[EB/OL]. http://www.mie168.com/htmlcontent.asp, 2002.09.20Mark Graves. Designing XML Databases[M].北京:机械出版社,2002.8Florescu D,Kossmann D. Storing and Querying XML Data Using an RDBMS[J].IEEEData Engineering Bulletin,1999,22(3):27-34Yoshikawa M,Amagasa T,Shimura T,et al. XReI: A Path-Based Approach to Storage andRetrieval of XML Documents using Relational Databases[J]. ACM TInternet Technology(TOIT),2001,1(1):110-141Jiang  H,  Lu  H,  Wang  W.  Xparent:An  Efficient  RDBMS-Based  XML  DatabaseSystem[A].In:Proceedings of the 18th IEEE ICDE International Conference on DataEngineering[C]. San Jose, Shanmugasundaram J, Tufte K,Zhang C,et a1.Relational Databases for Querying XMLDocuments:Limitations  and  Opportunities[A].  In:  Proceeding  of  the  25th  VLDB江涌,于建武,刘镇.基于Schema的XML文档和关系模式映射研究[[J].科学技术与一「程,2008,2(8):407-410王庆,周俊梅,吴红伟,等.XML文档及其函数依赖到关系的映射[[J].软件学报,2003,14(7):1275-1281何盈捷,王珊.从DTD映射到关系模式:一种保持函数依赖的映射方法[[J].计算机研究与发展, 2004,15(5):868-873万常选,刘云生,徐升华,等.基于区间编码的XML索引结构的有效结构连接[[J].计算机学报,2005,28(1):113-127毛玉洁,顾明.扩展P-Schema及其在XML Schema到关系模式映射中的应用[[J].计算机应用研究,2005,11:133-138  摘要 4-6 ABSTRACT 6-8 第一章 绪论 14-18     1.1 课题研究的背景和意义 14     1.2 本课题相关领域的历史、现状和前沿发展情况 14-16     1.3 课题的难点 16     1.4 课题的主要创新点 16     1.5 论文的研究内容和组织结构 16-18         1.5.1 论文的主要研究内容 16-17         1.5.2 论文的组织 17-18 第二章 基于关系数据库的XML存储技术研究 18-38     2.1 典型的XML-RDB映射方法 18-26         2.1.1 边模型映射方法 18-21         2.1.2 结点模型映射方法 21-22         2.1.3 结构映射方法 22-24         2.1.4 约束映射方法 24-26     2.2 几种改进的存储方法研究 26-36         2.2.1 X-RESTORE方法 26-29         2.2.2 基于E_SCHEMA的XML模式到关系模式的映射 29-30         2.2.3 基于扩展哈夫曼编码的XML存储模型 30-33         2.2.4 基于THREADING-NUMEROUS-TREE的XML存储模型研究 33-36     2.3 本章小结 36-38 第三章 XML索引和查询关键技术研究 38-64     3.1 关系数据库中XML索引技术研究 38-45         3.1.1 XML索引技术概论 38         3.1.2 典型的XML索引技术 38-45         3.1.3 XML索引的研究发展方向 45     3.2 XML查询相关技术 45-53         3.2.1 XPATH查询处理技术 46-49         3.2.2 XQUERY查询处理技术 49-50         3.2.3 XML-to-SQL查询转化技术 50-53     3.3 对结构连接算法的研究与改进 53-58         3.3.1 扩展存储模型BREADTH-DEPTH 54-55         3.3.2 对父子关系结构连接算法的研究与改进 55-56         3.3.3 对兄弟关系结构连接算法的研究与改进 56-58     3.4 本体在XML查询中的应用 58-61         3.4.1 本体的概念 58-59         3.4.2 基于XML的本体表示 59-60         3.4.3 利用本体模式表示XML查询条件 60-61     3.5 本章小结 61-64 第四章 面向古代建筑信息数据的XML存储和查询 64-78     4.1 基于关系数据库XML存储和查询的构架 64-65     4.2 存储和查询的主要实现过程 65-74         4.2.1 XML模式解析 65-67         4.2.2 修剪DOM树 67-70         4.2.3 关系字典设计与关系字典信息存储 70-71         4.2.4 XML到关系模式映射与XML数据的存储 71-72         4.2.5 查询重写和结果重构 72-74     4.3 面向古代建筑信息数据的XML查询优化 74-76         4.3.1 基于全路径索引的XML查询优化 74         4.3.2 基于领域本体的XML查询优化 74-76     4.4 本章小结 76-78 第五章 总结与展望 78-80     5.1 工作总结 78-79     5.2 进一步工作 79-80 参考文献 80-84