当前位置: > 硕士毕业论文 > 38560字硕士毕业论文电力统计数值质量预测和异常检测概念研究

38560字硕士毕业论文电力统计数值质量预测和异常检测概念研究

论文类型:硕士毕业论文
论文字数:38560字
论点:数据,质量,评估
论文概述:

随着电网信息化、数字化进程的快速发展,电力部门形成了一个庞大的统计数据体系,此统计数据起着反映电网的运行状态、为电网扩展和规划提供依据等重要作用。而统计数据质量问题日益显

论文正文:

第一章是关于情绪

1.1论文的研究背景和意义
数据质量评价是数据挖掘过程中的一个重要而关键的过程,对数据挖掘的成功起着至关重要的作用。目前,数据挖掘的研究工作主要集中在数据挖掘算法的讨论上,而忽略了数据分析前数据质量处理的研究。一些成熟的算法对其处理的数据集有一定的要求,如良好的数据完整性、较少的数据冗余和较少的属性相关性。然而,实际系统中的数据普遍存在不完全性、冗余性和模糊性等问题,很少直接满足数据挖掘算法的要求。此外,海量实际数据中存在许多无意义的成分,严重影响了数据挖掘算法的效率,噪声干扰也会导致无效归纳。数据质量的提高已经成为数据挖掘系统实现中的一个关键问题。数据质量评估是数据质量管理的重要组成部分,它负责发现数据问题,是提高数据质量的驱动力和风向标。数据质量是一个多维的概念。每个维度代表检查数据质量的角度。例如,数据质量评估(如可信度、完整性、精确表示、及时性和可理解性)是面向需求的。同一数据在不同应用背景下的接受程度不同。例如,对于数据挖掘,相同的数据在一个挖掘主题下表现良好,但在另一个挖掘主题下没有得到有意义的结果。因此,需求分析实际上是一个维度选择的过程。数据质量评估从一个或多个维度开始,以动态或静态的方式检查数据。所谓动态评估方法(dynamic evaluation method)是指从数据生成机制评估数据质量,而静态方法只考虑数据本身。虽然动态评价方法可以更全面、更彻底地评价数据质量,但在数据挖掘等许多应用背景中,它往往受到条件的限制,无法了解数据生成机制的信息。针对数据质量问题,包括数据清理、数据集成、相似记录检测、数据质量评估、数据质量过程控制和管理等一系列环节。在数据质量管理的各个环节中,数据质量评价是提高数据质量的基础和必要前提。它可以对应用系统中全部或部分数据的质量状况进行合理的描述和评估,从而帮助数据用户了解应用系统的数据质量水平,及时发现数据质量问题,并采用相应的处理程序修复数据质量问题,提高数据质量。因此,结合电网的实际情况和未来发展的需要,构建统计指标数据质量评价体系对电网的发展具有重要意义。

1.2国内外主要研究现状

1.2.1电力系统异常数据检测与识别的研究现状
异常检测是识别数据集中与其他人不同的异常值和孤立点。在许多领域都有广泛的研究和应用,如欺诈交易监控、图形图像分析[5)、喷气发动机[6)、医疗诊断等。不同的领域对异常约束有不同的定义,因此没有通用的异常检测方法。目前,不同领域的研究人员根据各自不同的检测需求开发了各种异常检测算法,这些算法可以从使用的主要技术路线、类标签(正常或异常)的使用程度以及面向对象的特殊性等方面进行分类(如图1.1所示)。随着电力系统的快速发展,其运行结构日益庞大,积累了大量数据,已成为异常检测的重要研究领域。目前,国内外专家对电力系统中的不良数据检测问题提出了不同的解决方案。两个最常用的类别是数据挖掘和状态估计[7,8]。基于数据挖掘的不良数据检测数据挖掘是从数据库中的大量随机数据中获取先前未知且潜在特殊的关系信息的过程。数据挖掘的分析方法主要包括相关性分析、序列模式分析、分类分析和聚类分析。数据挖掘的具体算法主要包括统计分析、决策树方法、神经网络方法、覆盖正案例和排除负案例、粗糙集方法、概念树方法、遗传算法、公式发现、模糊集方法和可视化技术。根据不同的分析方法和具体算法,基于数据挖掘的不良数据检测识别方法可以分为基于神经网络、模糊理论、聚类分析和缺口统计的三种方法。

第二章电力统计数据质量评价模型及过程研究

2.1简介
随着智能电网[31,32的快速发展,电力统计量急剧扩大,数据质量问题日益突出。准确可靠的电力统计是决策和科学研究的基础。同时,数据质量评价是提高数据质量的基础和必要前提。因此,本章通过对电力统计数据现状的分析,介绍了电力统计数据质量评价的评价指标,提出了基于电网数据特点的数据质量评价模型。通过选择评价指标、设计评价规则、确定评价指标权重和期望值,计算出综合评价值、总体期望值和相对差异,量化每个评价指标上的数据状态,从而对整体或部分数据质量状况进行合理评价,帮助决策者和用户了解数据质量水平,并采用适当的处理方法提高数据质量。电力统计数据可以看作是电力系统的一种统计产品,这种产品在信息时代受到了更多的关注,质量的概念也被赋予了更多的内涵。传统的统计数据质量仅指其准确性,通常用统计估计中的误差来衡量。在市场经济条件下,准确性不再是衡量统计数据质量的唯一标准。由于统计数据是一种统计产品,其质量的定义必须从用户的角度出发,以统计数据提供的信息是否能够满足用户的需求为首要考虑。因此,企业统计数据质量应该是一个内涵丰富的综合概念。统计数据质量不是绝对的,而是相对的属性概念。不同的用户对不同时期的统计数据质量有不同的标准[36]。

第三章电力统计质量评估指标权重
3.1简介....18
3.2评价指标权重计算方法........18
3.2.1层次分析法........18
3.2.2重量测定步骤....19
3.3概述....25[/ Br/]第4章电力统计质量评估中的异常检测与分析
4.1简介.........26
4.2 SPSS简介......26
4.3单一统计指标数据的异常检测...26
4.4具有直接逻辑关系的多个统计指标数据的异常检测...28[/溴/]4.5无明显解决关系的统计指标数据.........28
4.6异常检测实例分析.........36
4.7摘要.........48
第5章摘要和展望
5.1摘要.........49
5.2展望.........49

结论

目前,电力部门已经积累了大量的统计数据,其中不可避免地会出现异常、冗余或不完整的数据。在电网数据的综合应用和共享过程中,如何保证统计数据的质量并从中获取有效信息,对电网的正确决策至关重要。根据电力数据对数据质量评价的需求,选择合适的评价指标,实现数据的全面评价,建立基于统计数据质量评价指标的评价模型。考虑到各指标在实际问题中的重要性不同,对评价指标进行加权和量化,以评价各指标的数据质量。主要工作成果如下:
(1)建立了统计数据质量评价模型,对统计数据质量评价结果进行量化。总体评价过程如下:首先,确定评价数据对象;然后根据数据质量评价需求选择评价指标;根据电力统计指标的内涵,设计评价规则,然后用层次分析法确定评价指标的权重值,并对每个评价指标给出期望值。最后,从各评价指标的合格百分比、权重和期望值计算出综合评价值、总体期望值和相对差值,从而了解统计数据的总体质量水平。
(2)考虑到评价过程中各评价指标的相对重要性不同,采用层次分析法根据各指标的重要程度对各指标进行权重分配。步骤包括建立层次结构图、形成判断矩阵、计算权重向量和检查判断矩阵的一致性。其中,判断矩阵是对每个数据质量评价指标进行成对比较,确定重要程度,并根据1~9给重要程度赋值,以避免人为主观因素,使评价结果更加科学客观。
(3)详细研究了正确性评估方法(异常检测)。在三种情况下讨论检测和分析。如果检测对象是单个统计索引,则盒图用于识别异常数据。如果检测对象是多个具有直接逻辑关系的统计指标,则通过测量统计数据是否符合逻辑规律来识别异常值;如果检测对象是多个没有直接逻辑关系的统计指标,则通过回归分析得到它们之间的多个线性方程,然后分析预测值和实际值之间的差值,得到异常值。但是,当多个统计指标之间存在一定的相关性,并且反映的信息重叠时,不能通过回归直接得到方程。对这些统计指标进行主成分分析,提取合理的主成分,然后在此基础上计算回归方程。

参考
[1]邱成武,米群超。引用该论文[。电力系统自动化,2006,30 (3): 105-106。[/BR/] [2]金赵广,梁启枫,黄鲜少,等.由计算机和网络仪器组成的电力数据实时测量系统[]。电力系统及其自动化学报,2004。16 (1): 89-91。
[3]王行芝,阎正,沈申,等.基于在线核学习的电网不良数据检测与识别方法[]。电力系统保护和控制,2012,40 (1): 50-55。
[4]钱德拉诉巴纳吉·阿、库马尔诉异常检测:[调查]。美国计算机学会计算调查,2009,41(3):15-58。
[5]马高,辛格.基于神经网络的图像序列分析新颖性检测器[]。《模式分析和机器智能的IEEE交易》,2006,28(10):1664-1677。
[6]克利夫顿区、塔拉先科区、麦加根区、顶叶区。燃气涡轮发动机性能检测的贝叶斯极值统计[。IEEE航空航天会议。纽约:IEEE出版社,2008:1-11。
[7]刘莉,翟邓辉,姜新力,等.电力系统不良数据检测与识别方法的现状与发展.电力系统的保护和控制,2010,38 (5): 143-147,152。[/比尔/] [8]姜德龙,王克文。不良数据检测与识别算法的评价研究[[]。《计算机工程与应用》,2012年。48(22):239-243。
[9]拉赫沙尼,萨里里,鲁茨比希,k .国际电力工程能源和电力驱动会议,2009,473-478。
[10]叶薛永,吴季峻,杨伟,等.基于神经网络的电力系统不良数据修正[]。电网技术,2007,31 (S2): 173-175。