> 硕士毕业论文 > 40250字硕士毕业论文医学数据降维的比较研究

40250字硕士毕业论文医学数据降维的比较研究

论文类型:硕士毕业论文
论文字数:40250字
论点:数据,线性,流形
论文概述:

本文首先介绍了几种经典的线性降维方法和流形学习方法,并从原理方面对几种方法进行了较全面的比较分析,然后通过在实际复杂的数据集(肠癌数据集)中分别采用线性降维方法和流形学习

论文正文:

第一章是关于情绪

1.1研究背景

随着计算机和信息通信技术的飞速发展,大量的高维数据应运而生。如生物数据、医学数据、网络数据、空间遥感数据、金融交易数据等。随着海量数据的快速增长甚至指数级扩展,数据的测量和存储不再是一个问题。问题是数据处理方法没有得到相应的改进,从海量数据中很难获得有用的信息。因此,科学技术的发展给人类带来了“维度福音”和“维度灾难”。因为我们获得的高维数据可能包含许多新的潜在信息,这将对我们的研究有很大帮助。然而,高维数据集中包含的有效信息需要我们使用一定的数据挖掘方法来获取。事实上,研究问题的有用信息只是高维数据的一小部分。例如,在人脸识别中,人脸图像由所有像素点组成。我们以像素点为维度,这样图片就可以表达为高维向量,向量的每个元素都被认为是图像的灰度值。例如,32*32图片可以表示为1024维向量,因此我们需要比较1024个像素点来完成对该图片的识别。然而,在实践中,通常不需要使用所有像素点来识别这张脸,也就是说,图像的真实尺寸只是一小部分,远远低于真实像素点。因此,我们考虑如何降低原始图像中高维数据的维数,提取决定图像本质特征的有效像素点,即把高维数据降低到只包含原始数据中主要信息的低维空,降低后续识别过程的计算复杂度,简化处理过程,提高识别效率。数据挖掘和模式识别

主要是为数据建立分类器或估计函数,然后根据建立的学习算法或分类器模型挖掘数据中存在的一些潜在规则信息。虽然增加数据集可以提高算法的泛化能力,但海量高维数据会增加计算复杂度,影响执行效率。同时,大数据集中会有大量不相关的噪声信息,影响最终结果的准确性,导致分类器或学习算法的性能低下。因此,如何有效地从采样获得的高维数据中挖掘潜在的低维真实有效的信息成为特征提取的核心问题。有效的特征提取方法直接影响分类器和机器学习方法的性能。特征提取(Feature extraction)是对原始数据(线性组合或非线性组合)进行重组,以获得新的少量索引或用新的低维坐标系重建高维空空间,并用低维特征替换高维数据集。提取的特征尽可能覆盖高维数据中的大部分有效信息。

1.2研究的意义

随着网络和科学技术的发展,各个领域的研究者将面临一个非常严重的问题:如何从获得的海量数据中更准确地提取出我们需要的信息。随着数据挖掘、知识发现、特征提取等相关概念的引入,高维数据的降维成为整个问题的焦点。对于全局线性数据集,线性降维方法降维效果好,操作方便,理论成熟,已在科研和社会工作中得到广泛应用。对于高度非线性的数据集,人们提出了一种非线性降维方法,流形学习是其中较为经典的分支之一。尽管流形学习为非线性数据的降维提供了一个很好的框架,但其核心仍然是基于线性降维理论。没有完全线性的降维方法。同时,经典流形学习算法在理想数据集上都获得了相对线性的方法,具有理想的降维效果,但对数据集要求较高。例如,LLE算法要求数据的采样是密集的,数据集是局部线性的,并且算法本身对噪声非常敏感。同时,对于算法中对降维结果有严重影响的参数(邻居参数K)没有明确的确定标准。Isomap算法要求对应于流形的低维空之间的子集是凸的。该方法仅适用于内部相对平坦且对噪声敏感的歧管。算法中也没有确定参数(相邻参数k)的明确标准。根据我们在现实中获得的非线性真实数据,流形学习是否比非线性方法具有更好的降维效果?

第二章降维方法和神经网络

2.1几种经典的线性和非线性降维方法

数据挖掘的目的是发现数据的内在规律性和分布性,最重要的是降低维度。具体来说,降维相当于特征提取,即从海量高维数据中提取有效特征,掌握数据能够传达的有效信息,便于我们做出决策。从数据是线性还是非线性的角度来看,它可以分为线性和非线性降维方法。线性降维是在高维数据中寻找低维线性变量来模拟原始数据集。通常,计算相对简单,无需设置参数。经典线性方法主要包括:主成分分析(PrincipalComponent Analysis,PCA)、线性判别分析(LDA)和多维标度(MDS)。考虑到经典费希尔线性微分方程(Fisher LDA)中的小样本问题(小样本点和高样本维数),实际求解广义特征方程时经常会出现病态问题。如果主成分分析中样本间的差异矩阵采用欧氏距离,则主成分分析相当于主成分分析。因此,在线性方法中,模拟实验采用主成分分析法。同时,根据高维医学数据的特点,提出了一种大相关主成分分析算法,并进行了仿真实验。流形学习是非线性降维最有代表性的方法之一。流形学习将高维空映射到低维空以保持原始数据点的局部邻居结构不变。与以往的非线性降维方法不同,它基本上保留了线性降维的简单算法。经典流形学习方法包括:等距映射、等距映射、局部线性嵌入、LLE、拉普拉斯特征映射、黑森特征映射、he、局部切线空间对齐(LTSA)等。考虑到几种流形学习算法核心思想的相似性,本文主要模拟Isomap和LLE算法。

第一章绪上......................................................1

1.1项目研究背景..........................................................1

1.2项目研究的意义........................................................3

1.3研究现状....................................................................3

1.4本文的主要工作和结构..............................4

第二章降维方法和神经网络……6

2.1几种经典的线性和非线性降维方法...................6

2.2 BP神经网络及相关参数的选择..............................15

摘要

数据降维技术已经成为数据挖掘和模式识别等相关学科中极其重要和不可或缺的工作和方法。其主要思想是利用一定的规则和函数从高维数据集中提取主要信息,找到高维数据中包含的低维空结构,降维后尽可能保持高维数据的原始空几何结构。降维技术的应用已经渗透到我们生活的许多角落,尤其是在网络、科研、金融、经济等地方。它不仅可以简化数据,方便后续工作,还可以提高人类识别高维度的能力,最重要的是实现可视化。数据降维从数据转换的角度可以分为线性降维和非线性降维。线性降维方法已经成熟并得到广泛应用。根据线性降维理论,非线性方法的优点在于,在现实中求解复杂非线性流形的数据集时,传统的线性降维方法无法超越,因为实际非线性数据集中的有效信息无法通过线性方法中特征的简单线性组合获得。流形学习(流形学习)作为一种新的非线性降维方法,通过样本间的距离关系和线性处理方法将高维空映射到低维空上,并尽可能将原始高维数据空的结构保持在低维空上以降维。

因为线性方法已经被用来处理全局线性数据,而流形学习方法在理论上只实现了理想数据集的良好降维。首先,本文介绍了几种经典的线性降维方法和流形学习方法,并从原理上对这些方法进行了全面的对比分析。然后,通过在实际复杂数据集(肠癌数据集)中分别采用线性降维方法和流形学习方法的模拟测试,采用神经网络进行评价测试,最后对结果进行分析。结果表明,经典流形学习方法在噪声和样本分布不是很密集的真实高维非线性数据集中,在去除噪声和保留有效信息方面并不优于传统的线性降维方法。参数的确定没有具体的标准,计算复杂,对噪声敏感。同时,降维结果模糊了原始属性,不容易解释降维结果。

参考

[①夏火松。数据仓库和数据挖掘技术[。北京:科学出版社,2004

[2]安吉拉·博尼法蒂,法比亚诺·卡坦科,斯特凡诺切里,阿方索·富盖塔,斯特凡诺巴拉博西设计数据集市,从仓库获取数据。2001.10。

[3]卞赵琪、张龚雪等。模式识别(第二版)[。北京:清华大学出版社,2000年。

[4]我叫乔利菲。主成分http://sblunwen.com/yxyxx/分析。资料来源:斯普林格-弗拉格,纽约,2002年。

[5]博格一号和格罗宁一号调制解调器。多维缩放。《理论与应用》,纽约:斯普林格-弗拉格出版社,1 997年。

[6]福永国王。统计模式识别导论。加利福尼亚:学术出版社,1990年。

[7]佩尼奥·斯佩内夫。信息表示和传输的统计理论。纽约:洛克菲勒大学,1998年。

[8]弗拉基米尔·范帕尼克。统计学习理论[。张龚雪译。北京:电子工业出版社,2004。

作为核特征值问题的非线性分量分析[。神经计算,1998.10:1299-1319。

[10]特内鲍姆·约翰逊,西尔瓦姆·维·德.廊坊市.非线性降维的全局几何框架。科学,2000,290:23 1 9.2323