> 硕士毕业论文 > 37900字硕士毕业论文基于MooseFS概念的工业采集数字云存储系统研究

37900字硕士毕业论文基于MooseFS概念的工业采集数字云存储系统研究

论文类型:硕士毕业论文
论文字数:37900字
论点:数据,节点,计算
论文概述:

本文采用的 MFS 可以快速部署到廉价的服务器甚至 PC 机上,运营和维持成本大大降低,能够快速搭建私有云存储系统;MFS 是比较典型的云存储分布式文件系统,对其应用和二次开发有利于增加

论文正文:

第一章导言

1.1研究现状
1.1.1云存储研究现状
中国在2012年召开了四次云计算会议,每次会议都聚集了专家,给中国云计算研究带来了无限的动力。同时,深圳、北京、上海、杭州和无锡被授予“云计算创新服务试点城市”的牌匾,标志着云计算在中国的开始。云计算的研究方向主要包括以下三个方面:(1)计算:实现大规模集群计算,形成强大的计算资源库;(2)虚拟化:用户获得与实际物理硬件完全分离的直观服务;(3)存储:存储大量资源,以确保计算和虚拟化的成功实施。云存储是云计算研究的基础,也是当前云计算研究的发起者。如果云存储技术无法解决,计算和虚拟化将无法实现。国内外研究现状如下:

(1)亚马逊-S3
(亚马逊简单存储服务)是亚马逊推出的简单云存储服务。只有掌握亚马逊提供的服务界面,用户才能在S3服务器上存储任何类型的文件。S3的总体设计目标符合以下三个要求:可靠性、易用性和低成本[1,2]。S3对象主要有两部分:数据和元数据。数据是任何类型的。元数据用于描述数据信息,可以由用户或系统定义。用户定义的元数据不能超过2048B,并且对象是基本存储单元。系统采用冗余存储模式,存储每个用户数据的多个副本,并将这些副本放在不同的服务器和数据中心,大大降低了数据丢失的概率,给用户带来更好的用户体验,成为云存储的风向标。

(2)谷歌——通用汽车公司通用汽车公司
(谷歌文件系统)一个专用的分布式文件系统,旨在存储大量搜索数据[3]。GFS系统包括两种类型的节点:主节点和块数据存储节点。主节点负责存储系统元数据。简而言之,硕士是系统的管理中心。它负责文件的存储位置和系统的自动维护。元数据记录数据块的位置和副本的存储位置。在系统维护期间,主机将定期接受来自组块的心跳消息,以保持系统的元数据是最新的。如果主设备中只有一个物理单节点,在主设备停机的情况下无法提供及时的服务。因此,需要一个逻辑主设备(主设备和备用设备),备用主设备可以接管主设备的管理功能。块存储节点:主要存储数据,每个节点有64M块大小的数据,每个块有唯一的64位标识符,每个块被复制到默认备份点。这是分布式文件系统的特点,它保证了数据的备份,提高了系统的安全性。

(3)Hadoop-HDFSHDFS
(Hadoop分布式文件系统)采用中央服务器架构。HDFS群集由名称节点和数据节点[4]组成。Namenode是中央服务器。其主要任务是管理文件系统空的命名以及客户端对系统文件的读写。Datanode的主要功能是以分布式方式存储数据块。命名节点的主要任务是完成文件系统的命名空之间的操作(打开、关闭、重命名文件和目录),并确定块到特定数据节点的映射。Namenode指导数据节点中块的创建、删除和复制。整个系统可以部署在运行Linux的普通廉价机器上。目前Hadoop只支持单用户编写,不支持多用户并发编写。当然,使用追加在文件末尾添加数据是可行的。

1.1.2工业数据采集研究现状
数据采集系统是工业自动化控制的核心组成部分。随着计算机技术、通信技术、物联网技术和云计算技术的成熟,工业自动化控制和智能数据采集与分析的发展方向不断受到影响。主要研究现状如下:

(1)基于工业PC机的低成本数据采集设备
传统的数据采集设备有自己的专用硬件,软件采用专用网络通信协议,因此在价格上威慑了中小企业。自20世纪90年代以来,随着工业PC机和嵌入式芯片的发展,低成本数据采集系统已经成为一个研究方向。工业PC机依靠视窗和Linux等成熟的操作系统,易于安装和使用,具有很高的控制和诊断功能,在系统维护方面也有优势[5】。

(2)开放式网络标准取代了现有的工业控制
网络。简单的工业数据采集系统通常用于现场完成控制和监控任务,从而形成封闭的网络结构。例如,随着现代企业信息化水平的提高,企业级信息管理系统在整合企业信息流的同时,提高了生产效率和水平。面对网络时代,有必要将企业的上层信息与现场生产数据整合起来,形成一个完整的企业信息平台。基于互联网的远程生产过程需要具有实时性、低成本、不受地域限制等特点,以不断提高现场自动化生产水平。

(4)标准化数据接口和协议
通过国内外的大量研究,诞生了一系列通信接口标准来解决企业上层信息管理系统和生产现场数据采集的问题,从而实现了硬件和软件的分界线,使软件不再依赖于特定的硬件层。例如,过程控制[7]的对象链接和嵌入在窗口和现场过程控制之间建立了一个桥梁。

(5)日益增长的工业数据量
信息管理网络将不可避免地导致工业数据量的增加,并将面临以下问题:存储成本的增加;存储容量爆炸性增长,难以预测。越来越复杂的异构环境。在数据处理和存储方面,不可避免地要使用当前流行的云计算架构、分布式存储机制和虚拟化服务模式,因此大规模集群操作成为解决海量数据信息融合问题的关键。

第二章相关背景知识介绍

2.1云存储理论
谷歌目前是世界上最大的搜索引擎公司,它的许多扩张业务需要大量的硬件和软件支持,合理利用过去的硬件设备,并要求自己的业务和硬件设备不断提供新的业务需求。这就需要从软件架构的角度出发,利用新兴的虚拟化技术通过互联网连接大量的普通电脑,这样可以处理大量数据,无限扩展容量,满足不同的业务需求。云存储是一种在线存储模式,其中数据存储在虚拟存储资源池中,并由第三方[8]持有。典型的云存储系统架构应该包括一个逻辑管理控制服务器和多个存储服务器[9】。其简单的系统架构应该如下:逻辑管理控制服务器应该尽可能减少对管理服务器的访问。如果客户端和存储服务器直接与数据交互,数据流和控制流应该分开,从而共享网络带宽,实现多输入/输出节点访问,实现网络带宽的最大利用率,克服输入/输出瓶颈;存储服务器优选地采用块存储。客户端访问的所有存储服务器都分布到整个存储集群,以实现分布式存储。备份策略可以根据物理位置信息(如数据所在的机架)选择合适的备份数据服务器进行备份。

第三章物流服务数据管理机制……16
3.1组织框架.......16
3.2系统操作.......20
3.3元数据……21
3.3.1数据结构……22在内存中
3.3.2块位置信息.......22
3.3.3操作日志.......22
3.4数据组织和交互......23
3.4.1数据组织.......23
3.4.2数据交互.......24
3.5数据维护.......26
3.6本章摘要.......28
第四章物流系统实施技术……29
4.1沟通机制.......29
4.2主实施方法.......31
4.3分块服务器实现方法.......34
4.4客户实施方法........40
4.5本章摘要.......43
第五章工业采集数据云存储系统设计.......44
5.1设计背景.......44
5.2设计要求.......44
5.3工业数据分布式存储算法设计……45
5.4报警电压分布指数算法设计……46
5.5时序数据并行分布式查询算法设计.......48
5.6随机数据并行分布式查询算法设计.......49
5.7本章摘要.......51

结论

根据海量工业数据采集、存储和数据挖掘的特点,研究了工业数据采集技术、工业网络技术、云存储技术、分布式文件系统和分布式计算的理论。本文中使用的MFS是目前流行的云存储开源软件。作为核心研发人员,我在研究生期间对该系统进行了绩效改进和深入研究。云存储在工业数据存储领域的应用有一定的理论和技术背景。本文的主要工作和结论如下:
(1)提出了云存储在工业数据采集领域的应用理论,解决了海量工业数据存储和数据挖掘的问题。在本课题中,基于MFS的云存储系统可以替代传统的存储平台。
(2)云存储资源库同时作为计算资源库,最大限度地利用MFS系统资源,实现高速数据挖掘。存储节点负责存储,也作为计算节点执行本地计算任务。
(3)系统自动建立分布式索引,将索引文件和相关数据记录文件绑定存储到同一个物理节点,从而达到减少系统网络交互和系统通信负荷的目的;
(4)本课题设计的相关算法可以从MFS系统中分离出来,部署到独立的节点上。设计了一个类似Mapreduce的分布式云计算模型。
(5)该系统继承了云存储系统的高可扩展性。计算节点随着存储节点的增加而增加,系统的整体计算性能随着节点数量的增加而线性增加。

参考
[1]刘绍杰,曾俊义,基于SAN的网络大容量http://sblunwen.com/gygcsslw/存储模式研究。《网络应用与传播》,第2卷,金德勤和林书豪,编辑,2012年,柏林春天出版社:柏林:279-284页。
[2]巴尔明,卡尔杜威,塔塔,克莱德代尔。西格蒙德\' 12:2012年ACM西格蒙德国际数据管理会议记录,2012。
[3]格玛瓦特,高比夫,梁世泰。谷歌文件系统。第十九届美国计算机学会操作系统原理会议录,2003,美国纽约博尔顿兰登:29-43。
[4]博塔库尔·HDFS建筑指南。
[5]向东。基于CC的工业数据采集系统开发方法研究,西北工业大学,2006:14-17。
[6]比克费勒维,普费尔德利,托特。单机制造系统的多目标性能分析自动化质量和测试机器人学,2012年IEEE国际会议,2012年。
[7]杨,李春海,刘振华。数据采集系统中从OPC类到OPC UA类迁移的实现。系统科学与工程,2012年国际会议,2012年。
[8]勇,李静。基于CWDM的光纤通道光网络扩展研究。信息科学与工程,2009年第一届国际会议。2009.
[9]吉伊。云存储是云计算的基础设施。智能计算和认知信息学,2010年国际会议。2010.
[10]严梅。面向数据密集型应用的云存储架构模型。计算机与管理,2011年国际会议。2011.