当前位置: > 技术 > 国内外关于大数据技术的研究现状,数据科学和大数据在计算机领域的应用现状

国内外关于大数据技术的研究现状,数据科学和大数据在计算机领域的应用现状

国内外关于大数据技术的研究现状

数据科学与大数据在计算机领域的应用现状2.1大数据的技术分析2.1大数据的技术分析大数据技术在应用过程中不断得到改进和发展。现在主要的大数据技术有大数据分析和挖掘技术吗?g和大数据技术中的数据隐私保护技术。大数据技术通常通过传感器网络和智能收集数据并存储数据

大数据技术的国内外现状

由于大数据的异构性和异质性,提高大数据格式转换的效率已经成为提高大数据技术应用价值的唯一途径。提高大数据计算能力的关键在于提高数据传输速率,这需要技术人员及时集成和处理大数据。 在大数据的处理、数据的重组和错误,即所谓的“大数据分析”中,它与“小数据分析”的唯一区别在于数据量和对数据存储、查询和分析吞吐量的要求所带来的数据量 本质上,“大数据分析”仍然需要通过数据分析找到现状,找到导致现状的根本因素,并通过模型和预测分析技术预测改进。今天是大数据时代,前景自然很好。根据前瞻性产业研究所《2016-2021年中国工业大数据市场发展前景预测与投资战略规划报告》,总体而言,医学大数据的应用主要体现在临床操作、研发、新商业模式、支付/定价和公共卫生五大领域。在这些场景中,参考全球医疗大数据产业发展前景预测和投资战略规划的分析报告,显示出中国大数据产业的市场空间巨大,预计到2020年将达到500亿元,而在医疗领域,大数据将显示出更大的商业价值。 目前,医疗保健的大数据主要用于疾病的诊断和治疗。 电子化,首先,确保数据的及时性和效率;和准确性 为了有一个完整的系统,我们可以监控、预测、分析和评估支付行业的发展。

数据科学和大数据在计算机领域的应用现状

数据科学与大数据在计算机领域的应用现状2.1大数据的技术分析2.1大数据的技术分析大数据技术在应用过程中不断得到改进和发展。现在主要的大数据技术有大数据分析和挖掘技术吗?g和大数据技术中的数据隐私保护技术。大数据技术通常通过传感器网络和智能收集数据并存储数据

大数据技术的国内外现状

国内外关于大数据技术的研究现状范文


0简介

随着计算机技术和互联网的飞速发展,尤其是网络2的发展。0,互联网上的数据量正在高速增长,处理大数据的能力相对不足。随着越来越多的数据需要处理,大数据无法存储在一台或有限数量的服务器上,更不用说由有限数量的计算机处理了。因此,如何实现资源和计算能力的分布式共享,如何应对当前数据量的高速增长,是数据管理和数据处理领域亟待解决的问题。

对于大数据,国际商用机器公司给出了三个V,即:容量、多样性、灵活性。卷中的大数据表示处理后的数据量正从T级跨越到Z级,而多样性表示处理后的数据类型正从结构化类型过渡到结构化和非结构化数据类型的共存。速度反映了从批处理到实时流数据处理的数据处理响应时间。本文描述了大数据:大规模;深度很大;大宽度;处理时间短;通用硬件系统;开源软件系统。

1国内外研究现状

1.1并行数据库研究

大数据处理的传统方法是使用并行数据库系统。并行数据库系统是建立在大规模并行处理系统和集群并行计算环境基础上的高性能数据库系统。这种系统由许多松散耦合的处理单元组成,指的是处理单元而不是处理器。每个单元中的中央处理器都有自己的私有资源,如总线、内存、硬盘等。每个单元中都有操作系统和管理数据库的实例副本。这种结构的最大特点是不共享资源。国外在这一领域的研究起步较早。20世纪80年代,出现了一个可以在由非共享节点组成的集群上运行的数据库系统。这些系统都支持标准关系表和SQL,而数据实际上透明地存储在多台机器上,供最终用户使用。许多这样的系统是基于伽马[4]和格雷斯[5]的并行数据库管理系统项目的开创性研究结果。20世纪80年代后期,并行数据库技术的研究方向逐渐转向通用并行机方面。研究重点是并行数据库的物理组织、操作算法、优化和调度。

早在20世纪80年代中期,Teradata和Gamma就开始探索一种新的并行数据库架构模型在脸谱网上,蜂巢数据仓库包含成千上万个存储超过700兆数据的表。广泛用于用户报告和即时分析。2011年,脸书研究人员在ICDE发布了一个快速有效的数据放置结构RCFile,这是一个基于MapReduce的数据仓库,王静等人(1)系统的并行架构和物理设计提出了一种基于Hadoop的基于过滤器的多表连接算法,以减少不必要的元组复制和数据传输。在国内并行数据库研究方面,中国人民大学的文吉荣等人于2000年在文献《[39》中分析了并行数据库系统的查询优化技术。。本文提出了一个大的数据布局结构,称为RCFile(面向记录的列存储文件系统),如图3所示。,该模型基于通过高速互联网连接的一组“无共享节点”(具有独立的中央处理器、主内存和磁盘),如图1所示。从那以后,几乎所有的并行数据库系统都使用了这两项技术:关系表的水平分区和SQL查询语句的分区执行(2)这些分开的执行程序中有一个非常特殊。它是主程序的主人。其余的执行程序都是作为主程序工作的工人。共有M个地图任务和R个缩减任务需要划分。主设备选择空空闲工人,并分配这些地图任务或减少任务。
(3)分配了地图任务的工人读取并处理相关的输入图块。它处理输入数据,并将分析的键/值对传递给用户定义的映射函数。映射函数生成的中间结果键/值对被临时缓冲到存储器中。。水平分区背后的思想是在集群节点上对关系表行进行分区,以便可以并行处理它们。例如,一个1000万行的表被划分在一个50节点的集群上,每个节点有4个磁盘,因此每个磁盘上将有50,000行。大多数并行数据库系统提供多种分区策略,包括哈希、范围和循环分区。在基于哈希的分区模式下,当加载每行时,哈希函数将应用于每行中的一个或多个属性,以确定该行应该存储的目标节点和磁盘。

[8]

从20世纪90年代至今,随着处理器、存储和网络等相关基础技术的发展,并行数据库技术的研究上升到了一个新的水平,研究的重点也转移到了数据操作的时间并行性和空之间的并行性上。并行执行有两个关键:1)大多数(甚至所有)表被划分到集群的所有节点中;2)系统使用优化器将SQL命令翻译成在多个节点上执行的查询计划。因为程序员只需要使用高级语言来描述他们的目标,所以他们不需要关心底层的存储细节,例如索引配置和连接策略。并行数据库系统的目标是高性能和高可用性。通过多个处理节点并行执行数据库任务,提高了整个数据库系统的性能和可用性。性能指标侧重于并行数据库系统的处理能力,具体性能可以概括为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面来理解:一是速度的提高;一是范围改进。速度提高意味着通过并行处理,可以在更短的时间内完成两个或多个数据库事务。范围提升意味着通过并行处理,可以在相同的处理时间内完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,实现系统的高性能。

可用性指数关注并行数据库系统的健壮性,即当并行处理节点中的一个或多个节点部分或完全失效时,整个系统持续响应外部的能力。高可用性可以保证硬件和软件。在硬件方面,冗余处理节点、存储设备、网络链路和其他硬件措施可以确保当系统中的一个节点部分或全部发生故障时,其他硬件设备可以接管其处理并向外部世界提供连续服务。

在软件方面,通过状态监控和跟踪、相互备份、日志等技术手段,可以保证当当前系统中的一个节点部分或全部发生故障时,他所执行的处理或他所控制的资源可以无损失或基本无损失地转移到其他节点,其他节点可以继续向外界提供服务。

1.2大数据处理的MapReduce模型研究

2004年,谷歌研究人员杰弗里·迪恩(Jeffrey Dean)和桑杰·格玛瓦特(Sanjey Ghemawat)在文献《[1》中提出了“生产计算模型”,并在美国计算机学会和其他期刊《[2,3》上转载了该模型。MapRe简化计算模型为大数据分析和处理提供了一种新的有效解决方案。文献中指出,“MapRedcue是用于处理和生成大数据集的编程模型和相关实现。该程序作为一个函数编写,并在大规模通用计算机集群上自动并行执行。这使得没有并行和分布式系统编程经验的程序员能够轻松利用大规模分布式系统的资源。”MapReduce计算模型的映射操作是通过划分输入数据并行执行的,例如,将输入数据划分成M个块并将M个块分配给不同的机器。缩减操作由中间生成的键的键值对来分配。中间生成的密钥可以根据一些分区函数进行分配,并成为R块。分区数量和分区函数由用户指定。具体过程如图2所示。

(1)用户程序中的MapReduce函数库首先将输入文件分成M个块,每个块的大小为16M至64M(可由参数确定)。然后在集群的工作机上执行处理程序。

[15]

(4)缓冲在存储器中的中间结果将被周期性地写入本地硬盘,并且数据将通过分区函数被划分为R区。这些中间结果在本地硬盘上的位置信息将被发送回主设备,然后主设备将负责将位置信息传送给精简工作人员。

(5)当主机通知Reduce的工作人员中间键/值对的位置时,它调用远程过程从地图工作人员的本地硬盘读取缓冲的中间数据。当Reduce工作器读取所有中间数据时,他使用中间键进行排序,以便相同键的值都在一起。由于具有许多不同键的地图对应于同一个简化任务,因此排序是必要的。如果中间结果集太大,则需要使用外部排序。
(6)精简工作人员根据每个唯一的中间键遍历所有排序的中间数据,并将键和相关的中间结果值集传递给用户定义的精简功能。“减少”功能输出到该“减少”块的最终输出文件。

(7)当所有地图任务和缩小任务完成后,主控器激活用户程序。此时,MapReduce返回用户程序的调用点。

通过以上七个步骤,成功执行了完整的MapReduce计算任务。可以看出,并行计算技术可以显著提高数据处理能力。

nosql与数据库技术的比较

非关系数据库(NoSQL)存储在键值对中,其结构不是固定的,每个元组可以有不同的字段,每个元组可以根据需要添加一些键值对,因此它不局限于固定的结构,可以减少空之间的一些时间和开销。谷歌的大桌子[是典型的NoSQL实现。另一个代表是阿帕奇·卡珊德拉(Apache Cassandra)在Hadoop[23基础上由脸谱开发的混合非关系数据库,类似于谷歌的BigTable,用于存储超大数据。

起初,数据库领域的专家对以MapReduce计算模型为代表的非关系数据库持否定态度。2009年6月,安德鲁·帕夫洛(Andrew Pavlo)、丹尼尔·阿巴迪(Daniel J. Abadi)、大卫·德威特(David J. Dewitt)和迈克尔·斯通布拉克(MichaelStonebraker)等著名的数据库合作文章发表的文章《AP-Proache与大规模数据分析的比较》[20,分别描述了并行数据库和MapReduce模型。此外,还比较了两种系统的性能和开发复杂性。最后,定义了一个由多个计算任务组成的测试集,并在开源版本的磁流变仪和两个并行数据库管理系统上进行了测试。对于每个计算任务,在一个100节点的集群上,对多个并行性进行系统性能测试。结果表明,虽然并行数据库系统的数据加载过程和执行调整时间比磁流变系统长,但这些数据库系统的执行性能比磁流变系统好得多,最后得出结论:在大数据处理方面,MapReduce比并行数据库差。

随着MapReduce技术性能的提高和应用领域的扩展,关系数据管理技术和MapReduce技术之间的争论一直在继续。因此,2010年1月,《美国计算机学会通讯杂志》同时向麻省理工学院的斯通布拉克教授和谷歌的杰夫·迪恩(Jeff Dean)和桑杰·格玛瓦特(Sanjay Ghemawat)研究人员征集手稿。院长研究员在《地图缩减:一种灵活的数据处理工具》[3]中指出,地图缩减是一种灵活有效的大规模数据分析和处理工具。与并行数据库相比,MapReduce的优势包括存储系统独立性和大规模作业的细粒度容错。MapReduce是一个用于生成和处理大规模数据集的编程模型。用户描述映射函数和缩减函数,映射函数处理键/值对以生成一系列中间键/值对集,缩减函数将中间值与相同的中间键值合并。2003年,迪安建立了一个基于MapReduce模型的系统,以简化Google.com使用的倒排索引的构建。从那以后,谷歌超过10,000个不同的程序使用了MapReduce,涵盖了大规模图形处理、文本处理、机器学习、机器翻译等算法。MapReduce的Ha-doop开源实现也被谷歌之外的许多组织广泛使用。与并行数据库相比,MapReduce有许多明显的优势。首先,它为大规模作业提供细粒度容错。当在需要几个小时运行的任务中出现错误时,没有必要从头开始。其次,MapReduce对于具有多个存储系统的异构系统的数据处理和加载非常有帮助。第三,MapReduce为执行比SQL直接支持的更复杂的功能提供了一个很好的框架。斯通布雷克教授的“地图简化和平行生物朋友还是敌人?”在Hive还包括一个系统目录——Metastore——它包括“有利于数据挖掘、查询优化和查询编译”的概要模式和统计信息中,最初对MapReduce技术的完全否定被改为对MapReduce良好可扩展性的肯定,并指出MapReduce非常适合ETL。目前,越来越多的数据库研究者逐渐意识到MapReduce和关系数据库可以相互学习,走向集成。

MapReduce可以学习查询优化、模式支持、外围工具支持等。从关系数据库管理系统(RDBMS)学习,而关系数据库管理系统(RDBMS)可以从MapReduce学习,具有高可扩展性、容错性、加载速度快、易于使用等特点。

1.4 MapReduce与数据库技术相结合的研究

在并行数据库与MapReduce模型结合的理论研究中,以耶鲁大学丹尼尔·阿巴迪(Daniel J. Abadi)为代表的外国研究人员在过去三年里在VLDB西格蒙德(SIGMOD)发表了许多关于数据库领域列存储的论文,[8 -11),分别以2009年和2011年在VLDB发表的Hadoodb[18,34]研究为代表,Hadapt研究是在Apache Hadoop项目的基础上提出的。它消除了数据孤岛,并使用云环境中现有的SQL工具来组织和分析大量“多层结构”数据。耶鲁大学计算机科学系研发的Hadapt技术解决了大数据分析需求中的一些关键问题:数据加速增长和非结构化数据爆炸。Hadoop-DB通过传统的关系数据分析方法分析结构化和非结构化数据。

2011年在SIGMOD上发表的文件2011年,VLDB发布了基于威斯康星大学麦迪逊分校和国际商用机器公司研究人员共同开发的列存储技术的MapReduce框架文件在中国,对大数据分析的应用以及MapReduce与数据库技术相结合的研究起步较晚。中国人民大学秦雄学院等发表了题为《大数据分析——关系数据库系统与地图还原之间的竞争与共生》的文章[40,指出面对大数据深度分析的挑战,关系数据库技术的可扩展性遇到了前所未有的困难。同时,对于复杂而深入的数据分析来说,SQL的表达能力是不够的。MapReduce技术具有模型简单、可扩展性好、容错性、并行性和高性能。关系数据库技术和生产技术相互竞争,相互学习,相互渗透,推动了一个新的数据分析生态系统的出现。在新的生态系统中,关系数据库技术和制造技术找到了自己的位置,发挥了各自的优势,从大数据中分析和发现有用的知识。关系数据库和MapReduce技术各有利弊。如何集成关系数据库和MapReduce技术,设计一个兼具两者优势的技术框架,是大数据分析技术的研究趋势,它兼具MapReduce的高可扩展性和容错性以及RDBMS的高性能。,该文件使用列存储技术来改进DREMEL[25]: 1)复杂类型存储为单个列,而不是像DREMEL那样分解为不同的列;2)系统可以处理在DREMEL中无法处理地图数据类型;3)重点是在Hadoop的Java环境中提高性能。首先,引入列存储格式是为了与Hadoop复制和调度约束兼容。如图6所示,事实证明,在实际工作负载条件下,列存储格式可以加快MapReduce任务处理。其次,研究如何处理列存储中遇到的复杂数据类型,如数组类型、映射类型和嵌套记录类型。这些在MapReduce中都很常见。最后,本文介绍了跳过列表列存储格式,如图7所示,以及惰性记录构造算法,以避免不必要的记录被反序列化。该实验使用了从IBM研究中心内部网获取的真实数据。实验表明,在Hadoop映射阶段,列存储技术可以实现高达两个数量级的性能提升。通过MapReduce框架和数据库系统的结合,更详细地介绍了分步并行执行环境下HadoopDB数据引擎的设计,以提高数据分析性能,重点是连接和聚合操作。结合Hadoop作业调度和网络传播技术,单节点数据库系统成功转化为可扩展的并行数据库分析平台。

ICDE和西格蒙德分别于2010年和2009年在VLDB发表了脸谱网研究人员关于使用MapReduce实现并行数据仓库的研究结果:蜂巢[31 -33]。这是一个基于Hadoop的开源数据仓库解决方案。如图6所示,Hive支持的查询是一种类似于SQL: HiveQL的语句语言。该查询被编译成MapReduce作业,用于Hadoop执行。此外,HiveQL允许用户向查询中添加“客户端映射-简化脚本插件”。这种语言包含“支持包含基本类型的表的数据结构”,如列表、堆栈、集合、映射和嵌套复合数据结构。它后面的输入输出库可以扩展到以客户格式查询数据。

[29]

[30]

并在Hadoop平台上实现。通过大量实验,本文给出的RCFile有效性满足四个要求:(1)数据导入速度快;(2)快速查询处理;(3)存储空之间的有效利用率;(4)对高度动态工作负载模式的适应性强。RCFile比较数据导入速度和工作负载与行存储的适应性。RCFile通过避免表扫描中不必要的列值读取来优化读取,这在大多数情况下优于其他结构。RCFile是基于列存储的压缩,因此它在空之间具有高利用率。RCFile已经是脸谱网数据仓库系统的默认选项,也已经应用到了由脸谱网和雅虎开发的数据分析系统Hive上。

2011年,新加坡国立大学的黄铭钧教授和浙江大学的陈春教授发表了一篇关于在MapReduce框架下利用列存储技术实现可扩展连接处理的论文[35】。设计了在MapReduce框架下用于列存储的原型数据管理系统Llama,并在底部使用了创新的文件存储格式CFiles,如图4所示。在CFile中,每个块包含固定数量的记录,称为K值。每个逻辑块的数量n是不同的,因为记录大小是可变的。块存储在缓冲区中。缓冲区大小通常为1 MB。当缓冲区大小超过阈值或缓冲区中的记录数达到K时,缓冲区被刷新到DFS。记录每个块的起始偏移量。使用大块来表示文件系统中的分区单元。HDFS的每个文件都被分割成块,每个块都被复制到不同的数据节点。在HDFS,默认的块大小是64 MB。块包含多个块,具体取决于记录K的值和每个记录的大小。

文献中还设计了并发连接。如图5所示,在MapReduce框架的映射阶段放置了尽可能多的连接操作。通过Llama系统的构建,实现了大数据的快速查询。并发连接的初衷是在MapReduce框架的映射阶段放置尽可能多的连接操作。基本思想是使用密集的查询计划树和排序PF组来解决MapReduce任务中的多表连接问题,避免重新安排昂贵的数据复制,减少MapReduce任务的数量。该算法可以降低在HDFS节点保持大量中间结果的压力。此外,设计了一个数据物化和并发连接成本模型来分析数据访问成本,从而对模型进行详细优化。

[34]

2011年,西格蒙德发表了一篇关于基于Hadoop的并行数据仓库加载方法东北大学的Yuge等人从以上分析可以看出,当数据集和索引变大时,传统的关系数据库在处理大规模数据时会导致严重的系统性能下降,因为在处理数据时,SQL请求会占用大量的CPU周期,并且会导致大量的磁盘读写,性能会变得无法忍受。提出了一种基于MapReduce的关系数据仓库并行查询方法,并设计了一个基于MapReduce的分布式关系数据库:ChunkDB。南京邮电大学的李灵娟等人[随着对MapReduce并行计算技术的深入研究以及SMP、MPP等处理器技术的发展,MapReduce分布式并行处理集群已经成为大数据研究中最受关注的热点。目前,在MapReduce与关系数据库技术相结合的领域,需要进一步研究和解决以下问题。提出了一种基于MapRe-duce的频繁项集挖掘方法,在数据挖掘中取得了较好的时效性。的论文,该论文由研究员特拉达和加州大学共同撰写。Hadoop用作中间加载服务器,用于存储要加载到Teradata企业数据仓库中的数据。从HDFS( Hadoop分布式文件系统)获得了许多优势:1)要加载的文件在磁盘空之间显著增加;2)数据一旦写入HDFS,就不需要保存数据源的数据,甚至文件在加载到Teradata企业数据仓库之前也不需要保存;3) MapReduce程序可用于转换和添加非结构化或半结构化数据结构;4)由于文件分布在HDFS,系统可以更快地并行加载到Teradata企业数据仓库中。当Hadoop和Teradata企业数据仓库共享同一个硬件平台时,由于硬件和系统管理成本的降低,它们越来越受到客户的青睐。5)另一种优化方法是将同一节点上的HDFS数据块直接加载到Teradata的并行节点上。由于HDFS固有的数据分布不均匀,很难避免HDFS块传输到远程太拉数据节点。因此,本文设计了多项式时间优化算法和多项式时间近似优化算法。HDFS块均匀分布到并行Teradata节点,网络流量最小化。

[36]

[37]

[38]

本文介绍了作者自己开发的无共享并行数据库系统PBASE /2中独特的两阶段优化策略。为了减少并行查询优化空的巨大搜索时间,PBASE/2将并行查询优化分为两个阶段:顺序优化和并行化。在序列优化阶段,预先估计并行化后的通信成本,并将通信成本添加到序列优化的成本模型中。同时,对动态规划搜索算法进行了修改和扩展,以确保在序列优化阶段获得的最小成本计划在并行化后仍然是最小成本。并行化阶段的优化目标是实现系统中各种资源上查询工作负载的负载平衡。提出了资源负载平衡因子的概念,并通过启发式规则、任务调度等机制来保证并行查询执行计划的优化。

2结论

[41]

[42]

[43]

为了实现并行处理的目标,是否共享资源,在参与并行处理的处理节点之间共享哪些资源以及共享到什么程度,需要研究并行处理的体系结构和相关实现技术。主要研究并行处理环境下的大数据分发算法、数据库设计工具和管理工具。尤其是并行环境下的列存储技术的研究。

(2)非关系数据库

非关系数据库由键值对存储,其结构不固定,每个元组可以有不同的字段,每个元组可以根据需要添加一些键值对,因此适用于大数据中的半结构化和非结构化数据,但其结构不便于表对表连接等操作,这是国内外研究的难点之一。

(3)节点间通信处理机制的研究

为了实现并行的高性能,并行处理节点需要最大程度地协同处理数据库事务。因此,节点之间必须存在通信问题。在并行数据库系统中,如何支持大量节点之间消息和数据的高效通信也成为一个重要的研究课题。

(4)并行运算算法

为了提高并行处理的效率,有必要在研究数据分布并行性的基础上,深入研究MapReduce节点上传统连接、聚合、统计、排序等特定数据操作的并行运算算法。这是国内外研究的热点之一。

(5)并行操作的查询优化

为了获得高性能,如何合理地将数据库处理的物理执行分解为相对独立的并行操作步骤,如何在多个处理节点之间以最佳方式分配这些步骤,以及如何在多个处理节点的同一步骤和不同步骤之间同步消息和数据都是值得深入研究的。

(6)数据加载和重组技术

为了保证高性能和高可用性,系统中的处理节点可能需要扩展,这就需要考虑如何将传统的关系数据库管理系统数据加载方法高效地移植到MapReduce框架中,以及如何合理地重组每个节点中的数据。

综上所述,关系数据库与MapReduce非关系数据库技术集成的研究是数据科学和数据工程领域的研究趋势。我国的相关研究工作还处于起步阶段,在国外的研究工作中也有许多关键问题需要解决。目前,国内外对MapReduce框架下大数据处理的研究主要集中在框架协议[5 -43]的设计上,还没有一套完整的解决方案和可以采用的相关国际标准体系。

参考

[1]迪安·杰,格玛瓦特·马普勒:大集群上的简化数据处理[·C]//第六届OSDI会议进程。旧金山:USENIX协会,2004: 137-150。

[2]迪安·杰,格玛瓦特的《MapReduce的经验:大规模计算的抽象》,[·C]//继续第15届PACT国际会议。华盛顿DC,2006: 1-2。

[3]迪安·杰,格玛瓦特·马普Reduce:一种灵活的数据处理工具[·杰]。ACM通讯,2010,53: 72-77。

[4]德威特·丁杰,格柏·R·H,格拉夫·G,等.伽马-高性能数据流数据库机[·C]//VLDB \' 86,1986: 228-237 .

[5]付士米,Kitsuregawa M,田中.并行关系数据库机的系统软件概述[[C]//VLDB \' 86,1986: 209-219 .