> 博士毕业论文 > 102410字博士毕业论文协同大规模地理网格信息并行处理方法探讨

102410字博士毕业论文协同大规模地理网格信息并行处理方法探讨

论文类型:博士毕业论文
论文字数:102410字
论点:栅格,数据,并行
论文概述:

本文是地理学博士论文,提出了一种大规模地理栅格数据并行处理算法的并行解耦方法。

论文正文:

第一章导言

经济发展和资源环境保护的应用要求推动了以高分辨率遥感卫星为代表的新一代数据采集技术的改进,以及数据量的几何增长。随着地理栅格数据分辨率空的提高、数据类型的增加和计算面积的增加,地理计算呈现出越来越多的“超大规模数据体特征”。与此同时,随着地理空之间分析和建模复杂度的增加,地理栅格数据计算呈现出越来越多的“超大规模计算密集型特征”。但是,由于技术水平和物理限制,单机系统的计算能力没有得到很大提高空,现有的地理计算平台已经不能满足应用需求,当前主流新硬件架构提供的计算能力也没有被地理网格数据处理算法充分利用。因此,现有的地理网格计算平台和相关算法系统不能满足当前大规模复杂地理计算的要求。随着计算机硬件和网络技术的发展以及海量数据在地理计算中的应用需求,开发高性能的地理计算方法已经成为当前地理计算领域非常活跃的研究方向。地理计算是典型的计算密集型和数据密集型特征,特别是地理网格数据具有计算和存储一体化系统的特点。因此,开发基于多核处理器的地理网格数据计算模型和并行算法显得尤为迫切。相对而言,在复杂的地理计算和地理过程模拟中很少有大规模的应用。此外,由于一些大型应用需要每秒执行数十亿甚至数千亿次浮点运算的计算机,例如天气预报、核武器、石油勘探、地震数据处理、飞机数值模拟、地理数据地理计算等。,这些应用需求推动了并行计算机和并行计算架构的发展,如中国天河系列计算集群。
……

第二章大规模土工格栅数据并行处理方法分析

2.1土工格栅数据处理算法串行和并行方法的比较
本章研究土工格栅数据的并行处理机制,分析编写并行土工格栅数据算法可能遇到的问题以及研发团队在协同开发中需要面对的挑战。基于分析结果,提出了高质量网格并行处理框架的特点和功能。对于基于并行技术的地理栅格数据处理算法,其核心思想是将复杂的地理计算分成多个子任务,每个子任务分别进行计算。加工方法如图2.2所示。该程序首先读取元数据内容,例如光栅数据的宽度、高度和格式,并根据计算强度划分多个子任务。每个子任务从它自己需要的每个进程迭代调用函数中获得一个结果值到输入域,并将结果值写入相应的输出域。最后,输出域被合并并写入磁盘以完成整个算法。在并行模式下处理栅格数据时,如果每项任务都由一台单独的计算机或一台单独的计算机完成,将会调动更多的计算资源,其计算能力将比原来的串行模式大大提高。

2.2地理网格多线程并行输入/输出
当程序运行宏声明部分时,会自动启动多个线程同时运行,并在宏声明程序体完全运行后重新同步为一个进程运行。与多进程访问方法不同,在多线程栅格数据并行计算过程中,每个线程都可以访问进程内部的所有数据。基本处理方法如下:首先,将待处理的栅格数据按照线程数量划分为多个“区域”,每个线程计算相应区域的数据并得到结果。在这个过程中,划分“区域”涉及不同线程之间的相互覆盖问题。一些基于卷积的计算算法要求在一个点对数据的外围数据进行统计计算,并且在区域边界由一个线程修改原始值将影响另一个线程的结果。或者,光栅数据处理程序可以采用在处理过程中申请与光栅数据大小相同的缓冲器的模式。要由该过程处理的光栅数据根据线程的数量被分成多个“区域”。每个线程计算相应区域的数据,并将获得的结果写入缓冲区。

第三章协作式大型土工格栅数据并行处理框架........27
3.1大规模土工格栅数据并行处理框架的结构和任务........27
3.2基于框架的土工格栅数据间接访问技术.......29
3.3基于框架土工格栅数据的典型并行操作方法...................32
第4章土工格栅协同模式域并行……47
4.1局部网格算法的特点和运行模式...47
第5章合作土工格栅数据全球并行……81
5.1全球土工格栅算法的特点及运行模式.......81
5.2全球土工格栅算法特征分析——以快速傅立叶变换算法为例……82
5.3人类尺度土工格栅数据的快速傅里叶变换算法.......84

第6章合作土工格栅数据动态并行

6.1与网格数据动态计算特性和运行模式
前两章相对应的网格处理算法是静态算法,即确定数据和算法后各过程的计算步骤、总计算量和计算量是确定的;然而,基于栅格数据的动态地理计算不能预先分步确定,每个过程的计算量也受到当前步骤和数据复杂性的影响,这使得难以确保平衡。同时,这种算法涉及大量并行同步操作,使得并行编程更加困难。本章使用该框架实现了栅格数据动态同步处理的方法和算法,并实现了并行栅格聚类算法。实验结果表明,本文提出的算法能够更好地处理地理栅格数据的动态合并,实现成本更低。这类算法在并行运行时会遇到以下问题:计算步骤不能提前确定,每次迭代的结果需要判断是否满足停止标准。在每次迭代中,进程之间需要复杂的进程同步和关键变量的同步,一个进程的不同步可能会导致整个计算过程死锁。单个过程的计算量也受当前步骤和数据复杂性的影响。很难保证平衡,最慢的进程可能会降低整个算法的运行速度。

6.2土工格栅数据的动态并行特性分析——以FCM算法为例
FCM算法的一个问题是需要迭代整个数据集,这需要将整个数据集加载到内存中。当地理栅格数据较大时,这种加载很难实现。同时,模糊聚类算法涉及模糊隶属度的计算,计算时间相对较长。为了处理大数据,可以采用抽样聚类。数据采样可以明显减少数据量,加快算法运算速度。然而,抽样方法和比例对最终结果有很大影响,在数据较为复杂的数据集中抽样比例越低,结果的正确性也会受到影响。在单台计算机的存储容量和计算能力不能大幅度提高的情况下,很难对大规模栅格数据实现良好的聚类效果。为了应对这种情况,有必要利用聚类并行数据能力对大栅格数据进行聚类。
……

第七章结论和前景

具体工作包括以下几个方面:
(1)提出了大规模地理栅格数据并行处理算法的并行解耦方法
(2)在研究地理栅格数据并行处理机制和并行解耦方法的基础上,建立了适合数据块分割、分布和拼接协同开发的数据类模型,为实现地理栅格数据的协同并行奠定了基础;建立了核心算法的封装模型和开发策略,实现了代码开发和算法细节的分离,保证了并行计算和分析应用的协调。
(3)提出了一种基于并行解耦思想的地理栅格数据局部计算并行方法

基于大规模地理栅格数据并行存取框架,开发了一系列典型的局部地理栅格处理算法,并对算法的运行时间、时间等特点进行了深入分析。从软件工程的角度来看,并行框架的可用性和易用性得到了提高。同时,分析了影响栅格数据并行处理速度的关键因素,为进一步提高算法效率奠定了基础。
……

参考文献(省略)