> 硕士毕业论文 > 68000字硕士毕业论文Hadoop平台存储策略的分析与改进

68000字硕士毕业论文Hadoop平台存储策略的分析与改进

论文类型:硕士毕业论文
论文字数:68000字
论点:数据,策略,节点
论文概述:

本文研究了Hadoop的分布式文件体系HDFS的基本原理,针对其原理和存储策略进行了深入的分析和研究。在此基础上分析HDFS在实际应用中遇到的问题,HDFS在运行的时候,可能某些数据节点在内存

论文正文:

简介

1.1课题背景

随着信息技术的发展,人们已经进入了数字信息时代。已经产生了越来越多的电子数据,并且诸如学校、企业、政府机构等大量纸质数据已经数字化。各种处理和记录系统产生的海量数据;各种wEB应用网站生成的日志数据和用户每天上传的数据都达到了TB级别。如此海量数据的存储和备份已经成为一个热点问题。混合处理后,大量数据可能会收到不同的效果。对于一些应用,如用户行为分析,一般算法并不比大量数据带来的效果好,而这些分析的前提是如何存储数据。从这些角度来看,数据已经成为一种财富,许多公司非常重视数据这一无形资产。例如,目前,许多公司正在做一项基于用户操作日志的行为分析的工作,以便从分析结果中获得潜在的商业机会。然而,快速分析的前提是如何保存这些日志数据以提供更快的读取速度,从而加快算法产生分析结果,同时确保这些数据的高效存储。
数据存储的问题是,虽然数据量增加,但物理存储设备的访问速度并没有提高。数据的常见存储方法是使用本地化存储或磁盘阵列技术。本地化存储有严重的硬件速度瓶颈。单台机器的中央处理器、内存、硬盘等硬件有限,存储效率停留在很低的水平,不具备灾难恢复备份功能。磁盘阵列技术不能满足海量数据的存储要求。磁盘阵列技术采用分布式存储,利用多台机器的性能来提高系统的整体性能,从而提高系统的存储效率。同时,磁盘阵列具有容错功能。然而,面对海量数据存储,使用磁盘阵列需要大量资金。同时,虽然磁盘阵列具有备份能力,但存储策略和自动修复功能并不完善。
面对如此海量数据的存储和分析,人们提出了云计算解决方案,越来越多的科研机构和企业开始关注云计算作为一种新的计算模式。云计算框架的发展带来了商业模式和计算方法的革命性变化。它彻底改变了数据主要集中在本地存储和本地计算的传统模式。它使企业、学校、实验室和科研机构能够通过网络方便快捷地提高系统的计算能力和存储能力空。它大大减少了这些地方硬件和其他基础设施的浪费和闲置,有效提高了人力资源的效率,为企业、学校和科研机构节省了大量的资金和人力支出。
云计算存储系统是利用云计算技术开发的一种存储模式。它通过网络技术和分布式文件系统将分布式存储设备连接成一个虚拟的整体,形成一个高效、快速、安全、可靠的存储系统。存储系统的上层组织硬件,通过云框架软件提供数据存储和高速访问服务。在此基础上,本文研究了如何满足海量数据的高速存储。目前,云框架的存储策略还不是很成熟,每种存储策略的生成都是为了满足实际需求。因此,本文主要设计了一种基于云框架的优化存储策略来满足我们的实际需求。
云计算已经成为新时代的计算模式和存储模式。云计算结合了虚拟化技术、分布式计算、并行计算、网格计算等技术,因此云计算具有更好的数据存储架构。云计算的分布式文件系统具有容错性和安全性的特点。云计算的实现是使用成千上万的廉价机器和存储设备来构建存储平台和计算平台。这些异构设备通过云平台转变为高度可靠和可扩展的系统,为用户提供用于存储和计算的云平台。
谷歌云计算框架的存储系统是GFS(谷歌文件系统)一种GFS,它与传统的分布式文件系统共享许多设计目标,如性能、可扩展性、可靠性和可用性。谷歌的设计也是基于谷歌对自己应用程序的负载和技术环境的观察。GFS和早期文件系统假设明显不同。谷歌已经为不同的应用部署了多个GFS集群。最大的群集有超过1,000个存储节点。300TB硬盘空,不同机器上的数百个客户端经常访问这些硬盘。这种设计思想能够很好地满足海量数据的存储,所以谷歌的GFS文件系统一直受到人们的提倡。Hadoop框架的HDFS文件系统是谷歌GFS文件系统的开源实现,实现了GFS功能,具有很高的容错性、可靠性和稳定性。因此,HDFS能够满足企业和科研的需求,成为一个流行的云计算框架。
Hadoop框架可以直接在普通机器上运行,提供高效稳定的服务。同时,Hadoop是一个完全开源的框架平台,非常适合根据自己的需求设计存储策略。HDFS的分布式存储策略不仅能高效存储数据,还具有自动备份和自动数据修复的功能。在备份和修复数据时,有必要提供相应的策略。本文主要针对实际需求,设计了基于hadoop存储的DIFT存储策略。主要方法是分析HDFS的实施原则,研究其存储策略以实现存储性能的优化,设计DIFT存储策略,并结合Hadoop云平台的建设实施该策略。

2本课题在国内外的现状

Hadoop技术在互联网领域得到了广泛应用,也受到了科研界和学术界的广泛关注。随着互联网的发展,新的商业模式将不断涌现,Hadoop的应用也将从互联网领域扩展到电信、电子商务、银行、生物制药等地方。Hadoop将在更多领域扮演后台支柱的角色,为我们提供更快更好的云计算服务。

2 Hadoop框架云……17-29
2.1 HDFS技术背景……17-20
2.1.1 GFS功能……17-18
2.1.2主从结构……18-20 [/BR/] 2.2 HDFS分发文件……20-27 [/BR/] 2.2.1 HDFS设计……20-21
2.2.2控制节点和的数据……21-22 [/BR/] 2.2.3 HDFS……22-24
2.2.4持久性……24[/比尔/] 2.2.5通信协议的鲁棒性……24[/比尔/] 2.2.6 HDFS……24-26[/比尔/] 2.2.7 HDFS数据……26-27 [/BR/] 2.2.8存储/[/ K0/]……27
2.3本章概述……27-29
3 HDFS研究及其战略……29-43
3.1……29-32
3.1.1控制节点启动……29-30 [/BR/] 3.1.2数据节点启动……30-32 [/BR/] 3.2 HDFS存储过程……32-34
3.3状态信息……34-36
3.4心跳协议……36-37
3.5数据存储……37-41
3.6本章概述……41-43
4海量数据存储战略……43-63
4.1设计理念……43-44
4.2节点数据结构……44-49
4.3……49-52
国家信息4.4……52-55
4.5心跳协议的DIFT存储策略……55-62
4.5.1节点选择政策……56-59
4.5.2节点排序策略……59-61 [/BR/] 4.5.3可配置……61-62 [/BR/] 4.6本章概述……62-63

摘要
本文研究了Hadoop分布式文件系统HDFS的基本原理,并对其原理和存储策略进行了深入的分析和研究。在此基础上,分析了HDFS在实际应用中遇到的问题。当HDFS运行时,某些数据节点有时可能在内存和带宽方面很忙。当客户端在这些情况下存储数据时,这些繁忙的数据节点可能会被选为存储节点,这将不可避免地导致整个集群的存储效率降低。
针对上述问题,设计了HDFS的DIFT存储策略,使系统能够根据集群中数据节点更完整的状态信息选择节点,提高集群的负载均衡能力。通过对分布式文件系统设计模式和方法的深入理解,深入分析了HDFS的存储过程和方法调用关系:客户端存储数据时,从控制节点获取数据节点数组,控制节点根据存储策略从集群中选择数组中的数据节点,并对它们进行排序,以优化传输。本文通过分析DIFT存储过程中的选择策略和排序策略,设计了该存储策略。在默认策略的基础上,添加新的判断信息以确定数据节点是否合适并对节点进行排序。数据结构、状态信息和心跳协议是存储策略的基础。本文对这些信息进行了重新分析,为DIFT战略提供了基本依据。根据这些基本信息设计,判断数据节点是否合适,同时根据这些信息对所选数据节点进行排序。最后,通过搭建实验平台,将DIFT存储策略与原策略进行对比,验证和分析了DIFT存储策略的效率,证明了DIFT存储策略在提高系统整体负载的基础上提供了更高效的存储性能。