> 硕士毕业论文 > 37558字硕士毕业论文SVM参数优化及其在分类中的应用

37558字硕士毕业论文SVM参数优化及其在分类中的应用

论文类型:硕士毕业论文
论文字数:37558字
论点:向量,支持,样本
论文概述:

本文是数学硕士论文,本文主要研究支持向量机的参数寻优及其在分类中的应用。首先,利用遗传算法粒子群算法和网格搜索算法对支持向量机的惩罚参数和高斯核函数的参数进行优化。

论文正文:

第一章引言

1.1研究背景

近年来,随着计算机和网络技术的发展,数据库技术也得到了快速发展,数据库管理系统也得到了广泛的应用。人们需要处理的数据量急剧增加,因此人们提出了数据挖掘技术。数据挖掘(1)是从大量模糊、随机和有噪声的数据中提取隐含的、未知的但潜在有用的知识的过程。数据挖掘技术包括数据分类、数据聚类、统计分析、数据可视化、关联规则挖掘和回归算法。数据分类是数据挖掘中的一个重要过程。通过对数据的分析,找出数据之间的关系,赋予数据一定的意义和相关性。分类算法,也称为分类模型或分类器,可以基于统计或规则。常见的分类算法包括K近邻算法、贝叶斯算法、决策树、神经网络、进化计算等。这些算法属于机器学习方法。

在统计学习理论的框架下,提出了一种新的支持向量机机器学习方法。支持向量机根据有限的样本信息在模型的复杂性(即特定训练样本的学习精度)和学习能力(即无误差地识别任何样本的能力)之间寻求最佳折衷,以获得最佳泛化能力。支持向量机由于其良好的泛化能力,被广泛应用于手写字符数识别、文本分类、图像识别、地球物理反演中的非线性反演、天气预报等地方。

由于支持向量机的实际应用价值,国内外学者对其进行了深入的研究,并取得了许多优秀的成果。只要支持向量机的性能受到其参数的影响,支持向量机的参数优化就成为SVM研究中备受关注的一个研究课题。

1.2研究意义

学习算法取决于参数,这些参数控制假设空之间的比例和假设空之间的搜索方法。支持向量机参数优化的研究可以提高支持向量机的性能,扩大其应用范围。因此,本课题的研究具有一定的实际应用价值。同时,优化算法的研究也利用支持向量机等智能优化算法相互学习优势,这也促进了算法本身结构的研究。因此,对这一课题的研究也具有一定的理论意义。

第二章支持向量机和参数优化算法

支持向量机是在统计学习理论框架下发展起来的一种机器学习方法。支持向量机不是基于经验风险最小化原则,而是基于结构风险最小化原则,它不仅解决了样本数量有限的模型构造问题,而且具有良好的泛化能力。本章主要介绍统计学习理论、支持向量机的基本理论以及支持向量机参数优化的常用算法。

2.1统计学习理论

传统的统计理论是基于大样本理论,但在现实生活中,大多数样本是有限的。为此,Vapnik和他的团队提出了统计学习理论。统计学习理论是利用经验数据研究机器学习的一般理论。它用有限的训练样本研究机器学习的规律。它可以看作是基于数据的机器学习问题的特例,即有限样本情况下的特例。统计学习理论从一些观察(训练)样本出发,试图获得一些目前无法通过原理分析获得的规律,并利用这些规律来分析客观对象,从而可以用这些规律来准确预测未来的数据。统计学习理论避免了过度学习、欠学习和局部极小化的问题,被认为是最成熟的小样本学习理论。支持向量机是在统计学习理论基础上发展起来的一种机器学习算法。

统计学习理论系统地研究了经验风险最小化原则的学习过程以及经验风险与实际风险的关系。主要内容包括:经验风险最小化原则、风险投资维度理论、泛化边界和结构风险最小化原则。

然而,在实践中,训练样本的数量通常很少,远未达到无穷大。使用经验风险最小化原则获得的结果不能最小化实际风险。例如,在神经网络的早期研究中,当测试未知样本时,训练误差小的结果可能不能获得良好的精度。在某些情况下,训练误差太小会导致测试准确率下降,也就是说,经验风险的降低会导致实际风险的增加,这就是“过度学习”问题。

2.2支持向量机

支持向量机是一种基于统计学习理论的分类方法,由Vapnik领导的AT&T·贝尔实验室研究小组于1995年提出。SVM采用统计学习理论和风险投资维度理论的结构风险最小化原则。输入样本通过核函数从原始空非线性映射到高维特征空。在高维特征空中构造最优分类超图面。SVM具有拟合精度高、学习能力强、训练时间短、选择参数少、泛化能力好、泛化能力强、全局优化等优点。它为解决小样本、高维、非线性等问题提供了一种有效的工具,可以推广到函数拟合等其他机器上。

SVM在高维空中构造了最优分类超平面,更好地实现了结构风险最小化原则。SVM的基本原理是将低维空中的线性不可分点映射到高维空中,使它们线性可分,然后使用线性可分方法构造最优超平面。通过核技术,通过使用高维超平面空简单地完成分类。

第三章支持向量机参数优化.........26

3.1要优化的参数........26

3.1.1惩罚系数.........26

3.1.2内核函数参数........26

第四章SVM在UCI数据集分类中的应用.........32

4.1数据集描述........32

4.2基于遗传算法参数优化的SVM分类结果.......33

第五章结论……60

第四章SVM在UCI数据集分类中的应用

本章介绍了参数优化支持向量机在数据分类中的应用,并对分类结果进行了分析。

4.1数据集描述

本文从UCI数据库中选取六个数据集,利用参数优化的支持向量机对其进行分类实验。以下是数据集的具体描述。

1.葡萄酒数据集

葡萄酒数据集用于根据葡萄酒的化学成分分析来判断葡萄酒的品种。这些数据来自意大利同一地区的三种不同的葡萄酒。分析的主要化学成分是酒精、苹果酸、灰分、黄酮等。总共13个。数据集的特征如下:

样本点数量m = 178每个采样点的属性数n = 13属性都是实数;属性数据不丢失;类别数s=3。

2.Spect心脏数据集

Spect心脏数据集(Spect Heart data set)是根据单质子发射计算机断层扫描(SPECT)的图像来判断患者的心脏图像是否正常。数据集的特征如下:

样本点数量m = 267每个采样点的属性数n = 22,属性值为(-1,1),并且属性数据不丢失;类别数s=2。

第五章结论

本文采用遗传算法、粒子群算法和网格搜索算法对支持向量机的惩罚参数C和高斯核函数中的参数进行优化。然后,将参数优化的支持向量机应用于分类问题。通过对UCI数据库中6个数据集的分类,结果不仅反映了支持向量机参数设置对分类结果的影响,也反映了3种参数优化方法的优缺点。

首先,k重新交叉验证中的k值越高,一般测试的分类精度越高,但运行时间越长,一般k值不应设置得太高,但必须大于或等于2。

最后,当数据集包含少量样本点时,网格搜索算法是优化支持向量机参数的理想方法,可以节省时间,分类精度高。当数据集包含大量样本点时,最好使用遗传算法和粒子群算法来优化支持向量机的参数。虽然遗传算法在优化支持向量机参数的运行时间上不如粒子群优化算法,但在分类精度上具有优势。

支持向量机的研究还有许多问题需要进一步研究。例如,核函数构造和更有效的参数优化方法。

参考文献(省略)