> 论文范文 > 25632字论文范文基于数据驱动FCM的模糊关联算法研究

25632字论文范文基于数据驱动FCM的模糊关联算法研究

论文类型:论文范文
论文字数:25632字
论点:算法,模糊,关联
论文概述:

本文主要对模糊聚类算法和加权关联规则算法进行研究,针对由尖锐分区所带来的边界值过硬的问题、Apriori 算法所存在的缺陷以及传统加权模糊关联规则对专家给定的隶属度函数过于依赖等问

论文正文:

第一章导言

聚类是从数据中获取有用信息的重要方法,也是非常重要的数据挖掘技术。其重要性体现在以下几个方面:第一,由于数据库中的数据通常不包含类标记,没有训练样本数据很难实现分类,聚类是处理属性众多、数量大、复杂且无类标记的数据的有效方法。其次,在知识发现过程中,聚类经常被用作其他数据挖掘任务的前奏。使用聚类分析技术将整个数据集分成不同的子集,然后基于聚类结果,使用现有的数据挖掘工具挖掘潜在有用的规则和知识摘要。关联规则的研究重点主要是如何确定数据中不同域之间的关系,从而找出给定条件下多个域之间的依赖关系。关联规则也可以用于顺序模式发现。它最初的动机是解决购物篮分析的问题。例如,当顾客购买商品时,他们不仅有相关的兴趣规则,而且还有时间和顺序模式要遵循。这种购买之间的相关性正是关联规则挖掘需要研究的。随着关联规则挖掘技术的不断创新和进步,其应用范围也从原来的购物篮分析扩展到网络入侵检测、软件缺陷挖掘、网站路径优化、设备故障诊断、网络行为挖掘等。关联规则挖掘技术有着广泛的应用背景和良好的理论基础,因此在不同领域需求和情况的推动下,它得到了不断深入的研究。

目前,挖掘关联规则的算法很多,但Apriori算法是影响最大的。大多数其他算法要么是它的扩展要么是它的变体。该算法采用逐层搜索迭代方法:首次扫描数据库时,计算项目集一中每个数据项的支持度,找到满足min _ sup条件的所有频繁的1个项目集。然后用1L生成频繁的2-项目集2L。在随后的第K次扫描中,由第k-1次扫描生成的频繁(K-1)项集首先被用作种子集k 1L,并且潜在候选的第K项集kC通过级联生成。然后再次扫描数据库,重新计算数据库中所有项目的支持kC,最后从kC中找出满足k min_sup条件的所有频繁k项目集L,作为下一次扫描的子集kL。重复上述过程,直到没有新的频繁项目集生成。为了更好地支持模糊关联规则挖掘算法的兴趣流挖掘工作,提出了一种基于数据驱动的原始数据集预处理方法。原始数据集的模糊划分和模糊记录可以通过数据挖掘-模糊聚类方法得到,从而得到原始数据集的模糊版本。实验结果表明:① DD-FCM预处理方法在聚类和划分原始数据集模糊分区方面优于BIRCH算法和CLARANS算法。(2) ②DD-FCM方法能够很好地生成量化属性的模糊划分,证明了数据驱动(基于数据驱动方法)生成的模糊隶属函数在没有专家给出先验知识的情况下(基于专家驱动方法)能够正常工作。本文共分为六章。主要组织结构如下:第一章介绍了研究背景,然后介绍了数据挖掘、聚类技术和关联规则的研究现状。最后,介绍了研究的目的和意义、本文的主要工作和文章的组织结构。第二章主要详细介绍了一些预备知识:数据挖掘和聚类概述。第三章阐述了原始数据集需要预处理的原因。然后,介绍了模糊C均值算法的原理流程。最后,在深入研究模糊聚类算法的基础上,提出了一种数据驱动的模糊聚类预处理方法——DD-FCM,并给出了原始数据集的模糊隶属度、模糊划分和模糊版本的生成过程。第四章介绍了数据挖掘-模糊聚类方法,针对Apriori算法的局限性及其在处理大型数据库时耗时、容易产生大量冗余频繁项集的缺点,提出了一种基于数据挖掘-模糊聚类的Apriori算法(数据挖掘-FCMA)。第五章介绍了模糊关联规则挖掘方法,针对加权关联规则不满足向下闭包,算法需要依赖领域专家提前给出模糊隶属度的问题,提出了一种基于模糊关联规则挖掘方法的加权模糊关联规则挖掘算法。第六章总结与展望。

第三章是基于数据驱动的FCM预处理方法..............................17

3.1提出的问题..................................................................................17

3.2模糊C均值算法的研究与性能分析..............................18

3.3数据驱动的FCM预处理方法..........................................21

3.3.1模糊隶属函数和模糊划分的产生过程..............................21

3.3.2原始数据集的模糊版本生成过程.............................................23

3.3.3实验结果和分析..........................................................25

3.4本章总结.....................................................................27

第四章先验算法.........................................28基于DD-FCM

4.1关联规则的研究与分析..........................................................28

4.2基于DD-FCM的Apriori算法.............................................32

4.2.1 DD-FCMA算法的基本原理........................................................33

4.2.2 DD-FCMA算法流程....................................................................34

4.2.3实验结果和分析........................................................35

第五章加权模糊关联规则挖掘算法...................37基于DD-FCM

5.1加权模糊关联规则模型...........................................37

5.2加权模糊关联规则挖掘算法..............................42基于DD-FCM

5.3本章总结.............................47

[25]

首先,介绍了数据挖掘的概念,包括数据挖掘技术的起源、现状和发展,并详细研究了模糊聚类算法和关联规则挖掘算法。在传统关联规则挖掘Apriori算法的基础上,提出了自己的研究内容。(1)提出了一种数据驱动的FCM预处理方法。传统的关联规则挖掘算法只能用于处理布尔属性值。如果要处理数字属性,通常会引入尖锐的分区来将数字属性值转换为布尔属性值。然而,这将导致硬边界值和数据集丢失信息,从而增加数据的不确定性,尤其是在分区的边界。在这种情况下,引入模糊集理论,通过模糊划分的方法将量化属性值转化为二进制属性值,从而解决了尖锐划分造成的兴趣流损失问题。本文利用模糊聚类算法生成模糊划分,克服了硬聚类算法(CLARANS和BIRCH)计算时间长、间接复杂和冗余划分等缺点。通过这个操作,可以将定量属性转换成二进制属性值,然后可以获得原始数据集的模糊版本(由模糊分区和模糊属性组成)。(2)提出了模糊隶属函数和模糊划分的生成过程和算法。为了生成模糊划分,首先要做的是获得每个数值属性的模糊隶属函数。提出了一种基于FCM算法的数据驱动模糊隶属函数生成方法。该方法克服了专家驱动方法产生的隶属函数带来的不确定性和计算量大的问题。详细介绍了生成过程和相应的算法。(3)提出了原始数据集的模糊版本生成过程和算法。整个预处理过程包括两个步骤:第一步是用模糊聚类方法为每个数值属性的值生成模糊划分;第二步的目的是进一步处理原始数据集,然后获得其模糊版本。

参考

[①毛郭俊、段李娟等。数据挖掘原理与算法[·米]北京:清华大学出版社,2005

[2]韩嘉伟,孟晓峰等人译。数据挖掘概念与技术(第二版)[·米]北京:机械工业出版社,2007

[3]郭惠崇、田展锋等。数据挖掘教程[·米]北京:清华大学出版社,2005

[4]安辰、陈宁、周龙祥等。数据挖掘技术及其应用[·米]北京:科学出版社,2006

[5]庞谭宁,米夏埃尔斯坦巴赫,库马尔的贵宾。[数据挖掘导论]北京:人民邮电出版社,2006。

[6][6]陈明贤,韩嘉玮,俞.大塔米. http://sblunwen.com/ssbylw/宁:数据库视角的综述[.IEEE知识和数据工程学报,1996:866-883。

[7]黄z .聚类具有分类值的大数据集的k均值算法的扩展[.数据挖掘和知识发现,1998: 283-304。

[8]法耶兹、皮亚特斯基-夏皮罗和帕德赫拉克斯神话。知识发现和数据挖掘:走向一个新的框架[。第二届知识发现和数据挖掘国际会议录(KDD-96),加州,AAI出版社,1996: 82-88。

陈坚刘鸿雁。引用该论文[。北京:清华大学学报,自然科学版,2002:727-730。

[10]阿格拉瓦尔,伊米林斯基和斯瓦米。在大型数据库中挖掘项目集之间的关联规则[。ACM SIGMOD Int Conf .数据管理。1993年:207-216。