> 博士毕业论文 > 88801字博士毕业论文计算机辅助医学影像治疗中核心学习技术的探讨

88801字博士毕业论文计算机辅助医学影像治疗中核心学习技术的探讨

论文类型:博士毕业论文
论文字数:88801字
论点:样本,近邻,平衡
论文概述:

本文是医学博士论文,本文探讨了CAD应用中的小样本、非平衡学习技术,旨在提高CAD系统中学习机的分类性能,为放射科医生提供有价值的“第二参考意见”。

论文正文:

第一章引言

诊断一个病例是一个主观判断的过程。其次,在诊断中很容易忽略一些微小的变化,例如乳房的细微乳房化。可以看出,放射科医生的漏诊和误诊是不可避免的。研究表明⑴两名放射科医生可以提高同一病例的诊断准确率。为了减轻医生的工作强度,提高临床诊断的准确性,特别是减少误诊的可能性,计算机辅助诊断得到了广泛的应用。然后计算机进行智能诊断。然而,当时的模拟图像信息必须转换成数字图像信息才能进入计算机系统,这种转换也会降低图像质量并影响诊断结果。近十年来,数据挖掘和机器学习在医疗辅助诊断、模式识别、欺诈检测等地方得到了广泛的应用和研究。数据挖掘和机器学习可以有效地分析原始数据,提取数据背后隐藏的模式,发现新知识,做出正确的判断。类似于人类从过去的经验中学习知识并使用它来解决未来的问题,数据挖掘从已知的经验数据中发现知识,并使用从学习中获得的知识来判断未知的数据。通常,数据挖掘中涉及的数据信息由属性值表示。
……

第2章研究现状

2.1当数据中包含的样本数明显少于其他数据集时,不平衡数据集
称为不平衡数据集。还发现样本数量少的类别通常是用户对学习任务最感兴趣的类别。污染检测、风险管理、欺诈检测和医疗辅助诊断等非平衡样本集将出现在许多实际的分类应用中。非均衡数据集的分类引起了学者们广泛的研究兴趣。在非平衡环境中,更多的稀有样本将被误分类为大类,导致稀有样本的识别率显著降低。不平衡的数据分布本身似乎并不影响学习过程,而以下与不平衡数据相关的困难阻碍了正常的学习过程。

2.2不平衡学习成绩的评价标准
是分类器成绩评价,特别是罕见的样本往往被严重忽视,需要适当的评价方法来评价不平衡学习成绩。分类准确率和公式是常用的分类器性能评价工具。然而,在不平衡的学习框架下,分类器的整体准确性并不区分不同的类别,使用这一标准会对不平衡的学习表现给出错误的评价。例如,对于不平衡情况为9的样本集,如果所有样本都被判断为否定的,分类器可以达到90%的分类精度。该分类器性能良好,但实际上没有使用价值。从上面的定义可以清楚地看出,除了准确性之外,其他评估标准主要是考虑分类器对于某一类样本的分类性能,而不是其他类。然而,对于非均衡学习,必须提出一种新的评价标准,考虑分类器对两类分类性能的评价,特别是对正样本的分类评价。

第3章基于几何、概率和语义的混合样本标记技术........32
3.1研究背景……33
3.2混合类别标记技术.........37
第4章基于凸壳的欠采样技术.........53
4.1凸包的基本概念.......54
4.2实验结果和分析.........63
第五章基于反向最近邻的欠采样方法.........70
5.1影响集.......70
5.2反向最近邻的基本概念.........72
5.3反向最近邻的数学表达式........74

第5章基于反向最近邻的欠采样方法

5.1找到影响集
最重要的问题是在哪个区域找到影响集。两种最直接的方法是:找到最近的点和在搜索点周围的一定半径内搜索。这两种基本算法都需要合理选择参数(或者获得理想的查询结果)。如果您知道查询点Q附近区域的分布密度的先验知识,则无法准确选择算法参数。目前,所有的研究都是基于欧洲风格的对象,这些对象在多维空中表示为点。该查询可以使用各种几何工具有效地修剪查询空以加速查询过程。但是,这些特性仅限于欧洲空,适用于欧洲空的工具只能在不符合欧洲模式的复杂数据面前放弃。这些问题也是目前阻碍使用查询来分析这些数据的原因。商业区位规划是一个具有代表性的非欧洲模式应用:为了评估在选定的地点开设超市的影响,有必要将最近的超市作为超市的常住人口进行研究。顾客到超市的距离不是顾客到超市的欧洲距离,而是连接两地的最短距离,需要考虑交通网络布局。

5.2反向最近邻的基本概念
然而,最近邻查询方法只能描述查询点的局部分布特征,不能描述样本集的整体分布。最近邻查询法判断样本冗余容易导致欠采样过程中有效类别信息的丢失,从而降低学习机的性能。本章提出了一种新的基于反向最近邻的欠采样方法,以克服最近邻方法在表征样本集整体分布方面的不足。与最近邻相比,反向最近邻能够更好地表征数据集中样本之间的关系,更真实地描述样本集的整体分布结构。该算法使用反向最近邻查询具有代表性和可靠性类别的大类样本,从大类样本集中去除冗余和噪声样本,并在平衡训练样本集的同时尽量避免类别信息的丢失。
……

第6章总结和展望

本文探讨了小样本不平衡学习技术在计算机辅助设计中的应用,旨在解决小样本不平衡数据集不会影响学习性能的问题,提高计算机辅助设计系统中学习机的分类性能,为放射科医师提供有价值的“第二参考意见”。基于以上研究目标,本文提出了新的欠采样和半监督学习技术,以解决计算机辅助设计应用中数据集的不平衡和小样本问题。本文的研究重点和创新点如下:
在计算机辅助设计应用中,阳性案例通常明显少于阴性案例,由此导致的训练样本集不平衡是影响学习机性能的一个重要因素。基于重采样样本平衡方法,提出了两种新的欠采样算法。样本集的凸壳是包含数据集中所有样本的最小凸集。受凸包几何特征的启发,提出了一种新的基于凸包结构的欠采样算法,用简单的凸包顶点代替大类样本来平衡训练样本。此外,考虑到在实际应用中这两类样本经常重叠,相应的凸壳也会重叠。此时,用凸包表示大类的边界结构容易导致过度学习和学习机泛化能力下降。
……

参考文献(省略)