> 硕士毕业论文 > 38400字硕士毕业论文用于大量数据综合评估的树状数据结构的规划和完成

38400字硕士毕业论文用于大量数据综合评估的树状数据结构的规划和完成

论文类型:硕士毕业论文
论文字数:38400字
论点:数据,多维,采集
论文概述:

面对态势统计、标计算这一类特殊的数据挖掘应用领域的挑战,本文以网络安全事件监控技术及系统课题的需求为牵引,从实际出发,基于流数据技术和OLAP提出了一个适用于海量数据综合评

论文正文:

第1章数据挖掘技术概述

1。1数据挖掘的意义

在当今的信息社会中,我们接触到大量的数据,往往我们只需要其中一些有用的信息,并采用一些特定的数学或统计方法和模式,这样我们就可以发现数据块的现有关系和规则,从中提取潜在的和不平凡的信息,并根据现有的数据模式预测未来的数据趋势,然后这些数据就可以成为管理者的参考。可以说,数据挖掘是一项涵盖广泛领域和跨越不同领域的技术。它涉及许多领域,如科学研究、数据仓库、广告、新闻、金融、电子商务、教育、政府部门、军事机构等。针对不同的具体应用问题,采用了具体不同的数据挖掘方法,如关联规则挖掘、分类聚类技术、时间序列分析、路径分析等技术。

1。2数据挖掘过程

完整的数据挖掘过程应分为五个步骤:原始数据的获取(收集)、数据准备和预处理、可识别数据模式的发现(信息知识)、模式分析和评估(过滤)、知识总结和表达。下图显示了每一步:

1.2.1数据采集
根据当前目标和原则,有针对性地从海量原始数据中采集各种数据的过程。它是计算机和外部自然之间的桥梁。采集的信号可以是各种形式的电信信号、数字信号和模拟信号,但前提是采集的数据必须准确,因为我们采集的数据可能是某一时刻的瞬时值或某一时间段内的特征值。采集方法通常使用采样方法,并且每隔一段时间(即采样周期)重复采集相同的数据。

1.2.2预处理
现实世界的数据不像我们预期的那样完整和一致,不能直接开采。因此,我们收集的原始数据应该重新处理和整理,这可以大大提高采矿质量。预处理主要涉及以下操作:
(1)数据清理
数据清理的任务主要是删除异常数据,即噪声数据、冗余数据、不相关数据等。并纠正其中的错误。随着数据的不断积累,人们希望从这些大量的数据中获得更有效和有用的信息以供使用。但是,由于各种原因,如开始时输入数据错误、不同的数据表示方法和不同的数据属性,数据中可能存在脏数据和垃圾数据。因此,这一步是消除那些无效数据,提高数据的质量和可用性。
(2)数据整合
随着现代科学技术的飞速发展和信息技术的进步,人类已经收集了大量的数据,甚至超过了过去5000年的总和。这些数据有时需要在不同的单位和部门之间共享,以便更多的人可以使用和引用这些数据,并且可以避免许多不必要的重复劳动,从而大大提高数据的利用率。
当然,具体实施过程中肯定会有困难,如不同的数据源、不同的数据收集方法、不同的数据内容、不同的格式等。,这会对数据共享造成障碍。
数据集成是来自多个数据源的数据的逻辑或物理有机组合,以统一的方式组合和存储。建立数据仓库的过程实际上是一种典型的数据集成方法。这样,数据可以很容易地共享。
(3)数据转换
正是由于大量数据的出现,这些数据的原始结构不够合理和实用,无法满足共享各方面的需求。因此,有必要用新的适用数据来代替自己,包括内容、结构和数据库。
数据转换是指将数据格式标准化,并将其概括为易于数据挖掘的形式。

第二章综合评价……17-24 [/BR/] 2.1综合评价技术……17-19 [/BR/] 2.1.1层次分析法……18 [/BR/] 2.1.2模糊综合评价……18[/比尔/] 2.1.3数据包络分析……18-19 [/BR/] 2.1.4人工神经网络……19[/比尔/] 2.1.5主成分分析……19[/比尔/] 2.2综合评价指标机构……19-22 [/BR/] 2.2.1建模……21-22[/比尔/] 2.2.2采矿……22[/比尔/] 2.2.3综合评价指标……22 [/溴/] 2.3关于复杂指示器体……22-24
第三章树木汇总数据……TSD 24-37
3.1流量数据技术……24
3.1.1流量数据……24
3.1.2流数据相关……24
3.2 OLAP多维数据……24-30
3.2.1尺寸……25-26
3.2.2多维度……26-27 [/BR/] 3.2.3多维数据库……27-30[/比尔/] 3.3……30-32
基于数据仓库3.4的定义……32-33 [/BR/] 3.4.1尺寸……32-33 [/BR/] 3.4.2措施……33[/比尔/] 3.5 TSD特征分析……33-35[/比尔/]3.6 TSD的RDF描述……35-37
第4章基于TSD的计算……37-41
4.1 TSD平台结构……37-38
4.2申请……38-41

总结
面对形势统计和指标计算这两个特殊的数据挖掘应用领域的挑战,本文以网络安全事件监控技术和系统主题的需求为牵引,从实际出发,基于流数据技术和OLAP,提出了一种适合海量数据综合评价的汇总数据结构。RDF用于实现概要数据结构的一般描述。构建了基于描述的建模工具和挖掘系统,实现了一系列支持工具和计算平台,解决了综合评价的多维、多层次、多变量难题。最后,通过一个应用实例验证了树状概要结构及其实时挖掘系统的有效性和实用性。其中,RDF用于描述TSD模型,以便于语义相关的数据挖掘和智能建模。
5.2前景
下一步需要改进的研究工作主要包括:如何对海量文本数据进行语义挖掘建模,以及如何使建模过程更加容易和方便。