> 硕士毕业论文 > 50400字硕士毕业论文分布式计算机存储系统中的节点校正分析

50400字硕士毕业论文分布式计算机存储系统中的节点校正分析

论文类型:硕士毕业论文
论文字:50400字
论点:节点,数据,分布式
论文概述:

近些年,IT行业的飞速发展与互联网的广泛应用,带来了全球信息资源的爆炸性增长,各种应用对存储系统提出了越来越高的要求。分布式存储系统,因其廉价性及高扩展性等优点,而倍受人们

论文正文:

第一章简介

1.1研究意义

随着计算技术的飞速发展,网络带宽的增长和智能设备的普及,信息处理和网络服务已经渗透到人们生活的方方面面。尤其是近年来,P2P、社交网络、多媒体共享等网络技术和移动互联网的发展给人们带来了便利,全球信息资源爆炸式增长。图灵奖获得者吉姆·格雷(Jim Gray)在1998年获奖演讲中预测了未来数据量快速增长的规律:未来每18个月产生的数据量等于历史数据量之和。加州大学圣地亚哥分校的一组科学家计算出,2008年全球互联网服务器上存储的信息总容量为9.57ZB,与英国和TBZB相比,这显然超过了普通人的共识。1ZB=1024EB,而1eb = 1024 Pb = 1024 TB,1tb = 1024 GB换句话说,每个ZB约为1万亿GB,而9.57ZB约为10万亿GB。数据海洋的量化已经成为一种趋势。
随着人类活动的不断扩大空,实验手段的不断丰富和测量仪器的不断进步,在天文观测、高能物理、能源研究、基因分析等许多领域产生了大量数据。例如,当欧洲粒子物理中心(CERN)通过大型强子对撞机(LHC)进行实验研究时,为了捕捉实验中每个质子或中子的活动,系统需要拍摄数百万张电子照片并存储它们。当前的数据量约为每秒10MB至1 GB,每年需要存储约25MB(25,00tb)的数据。著名的搜索引擎谷歌索引的网页数量已经超过81亿,图片数量已经超过10亿。
在互联网时代到来之前,孤立的信息孤岛是我们社会的主要形式,信息过剩的问题只存在于大型企业中。然而,当网络突破这些障碍并连接孤立的信息孤岛时,整个社会的数据量立即呈现爆炸式增长。管理和存储这些数据已经成为一个需要解决的问题。对于海量存储,传统解决方案大多使用网络存储。网络存储需要具有强大数据存储性能的特殊服务器和特殊磁盘阵列。虽然它可靠性高,但成本太高。同时,传统的网络存储系统使用集中式存储服务器来存储所有数据。存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需求。
近年来,随着便携式互联网设备和移动互联网的快速发展,人们对存储的需求日益增加。分布式存储作为海量存储的主要解决方案正在悄然兴起,它将数据分散在多个独立的设备上。基于网络技术,将服务器系统的数据处理和数据存储分开,实现数据的海量存储。分布式网络存储采用可扩展的系统结构,使用多个存储服务器分担存储负载,使用定位服务器定位存储消息,不仅提高了系统的可靠性、可用性和存储效率,而且易于扩展。同时,分布式存储网络提供地理上分散的存储节点和对它们的共享存储访问,减少了数据访问的时间延迟。
AHL·瑞典等人在2000年提出了网络编码的概念,指出在组播网络中的一些节点上增加额外的编码操作可以使源和组播成员达到最大流量和最小切割的组播速率。网络编码一提出,就引起了国际学术界的广泛关注。它的理论和应用已经成为传播学研究的新热点。近年来的一些研究表明,分布式存储技术和网络编码技术的结合可以明显降低节点修复的带宽消耗。这些研究仍处于早期发展阶段,大多数仍处于理论层面。如何不断拓展现有理论,如何将现有理论技术转化为实用可行的技术,都是值得进一步研究的课题。目前,宝贵的带宽资源凸显了其实用价值。因此,对其进行深入的理论和实践研究具有重要意义。

1.2国内外研究现状

分布式存储系统通常需要确保两个基本性能:持久性和数据可用性。数据的持久性意味着存储在系统中的数据不会因为永久节点故障(如磁盘故障等)而丢失。可用性意味着系统将能够及时检索数据对象。两者的区别在于,可以持久存储的数据(持久性)可能当前不可用(可用性)。分布式存储系统主要依靠数据冗余技术来保证这两种性能。[/BR/]目前,两种常用的数据冗余策略是“复制”和“擦除代码”。2002年,韦瑟斯庞(Weatherspooon)和库比托维茨(Kubiatowiez)分别基于擦除代码和复制对两种存储系统进行了定量比较。分析表明,与相同数据冗余下的复制相比,擦除代码具有较小的存储消耗。
但是,分布式存储系统中单个节点的可用性不高。在系统中,节点会因磁盘损坏、自然灾害等因素而失效,数据的持久性也将得到保证。因此,在一个节点发生故障后,必须添加一个新节点来替换故障节点,以保持整个系统的数据可靠性。因为分布式存储系统存储大量数据,这无疑给分布式存储系统的设计带来了巨大的挑战!因此,一个新的问题有待解决:如何有效地重建丢失节点的数据,即如何通过消耗尽可能少的系统资源来重建丢失节点的数据?为了解决这个问题,人们已经将网络编码引入分布式存储系统。以下是对相关研究现状的介绍。[/BR/]2005年,Szymon等人在文献中首次将网络编码的思想引入分布式存储系统,并定量比较了基于复制、擦除代码和网络编码的分布式存储系统的性能。结果表明,在相同的数据冗余下,与其他两种方案相比,网络编码消耗的存储空间更少。
2007年,Dimakis等人在分布式存储系统中引入了网络编码,将节点修复问题抽象为通信网络中常见的单源组播问题。利用网络信息流图对其进行分析,引入了修复带宽的概念,即新添加的节点需要从系统下载多少数据来生成冗余块。作者从理论上提出了两种基于网络编码的编码方法,OMMDS编码和再生编码。

第一章引言……9-13
1.1研究意义……9-10
1.2国内外研究……10-12
1.3本文的主要研究内容……12-13
第二章相关理论基础……13-19
2.1经典网络流量……13-15
2.2网络编码概述……15-17
2.3擦除代码概述……17-19 [/br/ ]第3章节点修复问题……19-23
3.1问题描述……19-20
3.2不同的维修……20-21
3.3相关工作……21-23
第4章对称多节点……23-28 [/BR/] 4.1型号描述……24-25 [/BR/] 4.2网络信息……25-27 [/BR/] 4.3本章概述……27-28[/比尔/]第5章理论……28-47
5.1型号1:……31-37
5.2型号2:……37-42
5.3型号3:……42-46
5.4概述……本章第46-47节

结论
近年来,信息产业的快速发展和互联网的广泛应用带来了全球信息资源的爆炸性增长,各种应用对存储系统提出了越来越高的要求。分布式存储系统因其低成本和高扩展性的优势而备受关注。它理所当然地成为海量数据存储的首选。但是,由于分布式存储系统中每个存储节点的可用性较低,为了保证数据的可靠性,系统会频繁地修复节点。因此,如何有效地修复节点成为一个亟待解决的问题。
本文主要研究分布式存储系统中的多节点协同修复问题,其具体研究内容和贡献如下:
。现有工作对单节点修复的理论研究较为完善,对多节点协同修复的理论研究较少。然而,在实际的分布式存储系统中,多节点同时修复的问题非常普遍。然而,现有的多节点协作修复模型需要严格的条件,要求新节点在两个或两个之前进行数据交互。此外,新节点之间相应的数据传输不同于旧节点和新节点之间的数据传输,这将使实际分布式存储系统的设计复杂化。在研究分布式存储系统现有节点修复模型的基础上,提出了对称多节点协同修复模型SMCR。