> 硕士毕业论文 > 31025字硕士毕业论文网络实体事件重复检测研究

31025字硕士毕业论文网络实体事件重复检测研究

论文类型:硕士毕业论文
论文字数:31025字
论点:实体,事件,重复
论文概述:

本文是硕士毕业论文,本文对不同的实体事件表象、实体事件之间的关系进行了研究,以实体事件重复检测为目标,针对以上两个待解决的关键问题展幵研究,探索了实体事件表象的重复检测

论文正文:

第一章引言

1.1研究背景和意义

随着网络技术的飞速发展,网络上的信息也在快速增长。网络已经成为拥有大量数据的巨大数据源。这些数据包含大量有价值的物理事件,在人们的工作和社会生产中发挥着重要作用。充分挖掘和分析网络上的实体事件,获取丰富的知识,在市场情报分析、舆论分析、电子商务、商业情报等地方具有重要意义。然而,网络是自由开放的空,网络实体事件来自不同的数据源,网络数据源具有很强的自主性,网络数据具有多种形式、随机发布、表达自由等特点。另一方面,自然语言也是灵活多变的。对于同一个实体事件,使用不同的表达式是非常常见的。例如,“浙江吉利控股集团有限公司已经收购了福特汽车公司旗下沃尔沃汽车公司的全部股份”,以及“吉利和福特汽车已经完成沃尔沃汽车资产的交付”。这两个实体事件的出现都描述了同一个实体事件,但是它们使用不同的表达式。由于各种原因,网络实体事件的重复随处可见,给实体事件的分析和发现带来了很大的困难,也给用户和决策者搜索信息带来了很大的麻烦。因此,重复检测来自不同数据源的实体事件表示是非常必要的工作。同时,实体事件的重复检测也是网络实体事件发现研究的一个重要子任务。实体事件重复检测的目标包括识别重复、消除冗余等。

在重复检测实体事件之前,WEB必须首先提取页面上的实体事件表示,然后以非结构化或结构化的形式表示实体事件表示。非结构化表示通常使用一个或多个语句来描述实体事件。结构化表示通常提取各种属性(如时间、地点、主题等)。)并根据特定模型填充实体事件的各种属性维度。非结构化实体事件表示通常是基于语句的表示。非结构化实体事件表示对实体事件提取的要求相对较低,因为该方法基本上不对数据源上以各种自然语言表示的实体事件进行任何更改,并且不需要识别实体事件的各种属性,如时间、地点、主题等。然而,由于自然语言的自由性和复杂性,基于基于语句的实体事件表示方法进行实体事件的重复检测极其困难,最终的重复检测结果往往难以令人满意。结构化实体事件表示主要包括基于属性的实体事件表示和基于图形的实体事件表示。与非结构化实体事件表示方法相反,结构化实体事件表示方法对提取过程有较高的要求,但可以为后续工作(包括实体事件的重复检测和实体事件的集成等)带来极大的便利。)。结构化实体事件表示方法已经显示出很大的优势。因此,本文采用结构化的实体事件表示方法,在此基础上重复检测实体事件。

1.2实体事件重复检测面临的问题

网络数据源不同于结构化数据源,结构化数据源具有形式多样、随机发布、表达自由等特点。重复检测网络实体事件面临以下问题:

(1)网络数据源有多种类别和形式。例如,官方网站和个人微博可能成为提供实体事件的数据源;网络实体事件有多种形式和表达自由。例如,同一实体事件的不同外观可能来自新闻报道或一些评论。自然语言具有灵活性和可变性的特点。它可以用许多不同的方式来描述同一个实体事件。网络实体事件的发布者之间存在专业和级别差异。实体事件可能来自受过专业训练的记者的报道,也可能来自一些网民的随意评论。出于各种原因,物理事件的重复随处可见。如何识别具有相同含义和不同表达方式的实体事件外观是一个亟待解决的问题。

(2)实体事件之间的关系没有得到充分利用。Web实体事件通常不是孤立的,它们的发生和发展必然与其他实体事件有某种关系。也就是说,实体事件之间有一定的密切关系。例如,“2011双汇召回肉制品”和“河南生猪接触克伦特罗事件”并不是相互隔离的。他们之间有一定的关系。充分利用实体事件之间的关系可以为实体事件的重复检测提供新思路。然而,在实体事件的重复检测领域,目前的相关研究认为网络实体事件是孤立的。这些研究通常只利用实体事件本身的一些特征,而没有考虑实体事件之间的关系。

第二章实体事件重复检测研究

2.1导言

随着网络技术的飞速发展,网络上的信息量正以爆炸性的速度增长。网络信息的增长使它成为一个巨大的数据源。在网络上的海量信息中,有大量有价值的实体事件,它们在人们的工作和社会生产中发挥着重要作用。它在市场情报分析、舆论分析、电子商务、商业情报等地方具有重要意义。充分挖掘和研究网络上的实体事件,获取丰富的知识。例如,对于一个求职者来说,分析和研究一个企业的物理事件的轨迹,分析企业的成长历史、现状和未来发展,具有重要的意义。

然而,网络实体事件通常来自不同的数据源。Web数据源具有很强的自主性。网络实体事件以各种形式自由发布。网络数据的质量也不均衡。同一实体通常使用全名、缩写和别名。大量数据源对同一实体事件的重复报告随处可见,甚至实体事件的不准确报告时有发生。同时,自然语言是灵活多变的,同一实体事件往往在不同的网页上以不同的方式表达。这些现象给实体事件的提取和发现带来了很大的困难,提取的实体事件往往会重复发生并相互冲突。记录一个实体发展轨迹不同阶段的实体事件通常单独且不规则地分布在不相关的网页上。对于用户来说,完整的实体跟踪通常很难构建。研究实体事件并建立完整的实体跟踪是一项非常困难的任务。因此,研究网络实体事件的发现和跟踪分析是非常必要的。

本文的研究重点是网络实体事件的重复检测,这是网络实体事件发现研究和跟踪分析研究的重要子任务。本章首先简要介绍网络实体事件重复检测的研究现状,对当前的研究方法进行分类,并介绍网络实体识别和统一的研究现状。然后,分析了网络实体事件关系识别和应用的研究现状。最后,对现有的相关工作进行了总结。

2.2物理事件重复检测的研究现状

2.2.1实体事件重复检测方法的分类

在网络实体事件重复检测研究开始之前,数据库领域就已经有了重复记录检测的相关研究。此外,无监督学习方法通常用于数据库领域中的重复记录检测。文献建议使用TAILOR方法。具体方法是使用K-means聚类将重复检测的记录聚类成匹配类、可能的匹配类和不匹配类。使用已经确定的匹配类和不匹配类,训练可用于分类可能匹配类的训练树,然后将可能匹配类分成匹配类或不匹配类。该方法最大的问题是训练树的准确性不能得到保证,重复记录分类的效果也不能得到保证。增强聚类决策模型是一种更好的重复检测模型,它比K-means有一个额外的模糊区域,使得用户可以更灵活地调整匹配记录到类和不匹配记录到类的聚类情况,从而达到更好的重复检测效果。无监督学习方法的优点是它不依赖于样本数据。但是,数据库字段中的记录复制检测方法并不直接适用于网络实体事件复制检测。因为网络实体事件更加多样化,发布更加自由,表达更加灵活。

实体事件表示的重复检测基于实体事件表示的表示方法。哪种重复检测方法应该首先取决于使用哪种实体事件表示的表示方法。实体事件和实体事件表示有三种表示方法。(1)。第一种是基于语句的实体事件表示方法,提取实体事件表示并用自然语言描述。第二种是基于属性的实体事件表示,第三种是基于图形的实体事件表示。

基于语句的实体事件表示方法用一个或一组完整的语句描述实体事件或实体事件表示。基于语句的实体事件表示方法的最大优点是相对简单,因为该方法不需要依赖复杂的自然语言处理方法来提取实体事件或实体事件表示的各种属性。当然,这种方法的缺点也非常明显,因为它没有清楚地显示实体事件表示的每个属性,所以在重复检测和合并实体事件时很难处理这些语句。目前,基于语句的实体事件表示中的重复检测也有相关的研究。

第三章基于动态权重线性组合方法的实体事件表示重复检测........16

3.1导言........16

3.2问题的定义......17

3.3基于动态权重的线性组合方法........17

第四章基于属性和基于关系的实体事件重复检测……28

4.1导言.........28

4.2问题的定义.......29

第五章总结与展望........37

5.1总结........37

5.2展望...38

第4章:基于属性和基于关系的实体事件重复检测

4.1导言

重复实体事件表示描述同一实体事件。如果重复的实体事件表示被分组到一个类别中,则可以表示一个实体事件,因此实体事件由一组重复的实体事件表示来表示。如果实体事件表示的聚类不够,将会出现这样的现象:两个不同实体事件中的实体事件表示描述相同的实体事件,使得由该组实体事件表示组成的实体事件实际上是重复的,即实体事件之间可能存在重复。为了消除实体事件之间的重复,有必要对实体事件进行重复检测。实体事件重复检测的最直接的思想之一是使用某些规则来比较实体事件之间的实体事件外观,如果满足某些条件,则判断重复的实体事件,如果不满足条件,则判断不重复的实体事件。根据这一思想,本章将提出实体事件重复检测的第一种方法:基于实体事件属性的重复检测方法。

此外,还有其他想法吗?

Web实体事件通常不是孤立的,它们的发生和发展必须与其他实体事件有一定的关系。也就是说,实体事件之间有一定的密切关系。例如,“2011双汇召回肉制品”和“河南生猪接触克伦特罗事件”并不是相互隔离的。他们之间有一定的关系。实体事件之间的关系可以从不同的角度进行不同的分类。根据文献,实体事件之间的关系可以分为八类:构成、因果、跟踪、并发、条件和排除。文献认为,实体事件之间的关系包括顺序关系、组织关系、因果关系等。与多个相同实体事件有关系的实体事件必然非常相似。这给了我们一个很好的提示:在特定的范围内,两个要比较的实体事件可能与其他一些实体事件有关系,那么实体事件与关系之间的相似性越高,实体事件和重复的可能性就越大。举个极端的例子,如果与这两个实体事件相关的其他实体事件完全相同,那么这两个实体事件可能会重复。基于这一思想,本章充分利用实体事件关系,提出了实体事件重复检测的第二种方法:基于实体事件关系的实体事件重复检测方法。

第五章总结与展望

5.1总结

随着网络技术的飞速发展,网络上的信息量也在以爆炸性的速度增长。网络已经成为一个巨大的数据源,拥有大量的信息。这些信息包含大量有价值的物理事件。充分挖掘和分析网络上的实体事件,获取丰富的知识,在市场情报分析、舆论分析、电子商务、商业情报等地方具有重要意义。然而,网络是自由开放的空,网络实体事件以各种形式自由发布。自然语言也以自由和灵活为特征。相同的意思可以用不同的句子数量和形式来表达。因此,相同的实体事件在网络上以不同的方式表达是非常普遍的现象。这给实体事件的分析和发现带来了很大的困难,也给用户和决策者搜索信息带来了很大的困难。为了让用户获得简洁、准确和不重复的实体事件,有必要从不同的数据源重复检测实体事件的出现。

网络实体事件的重复检测也是网络实体跟踪发现研究领域的一个重要子任务。对网络实体跟踪发现的研究通常包括实体事件的提取、实体事件的重复检测和融合以及实体跟踪发现的分析。目前,关于实体事件的提取以及实体事件的重复检测和融合已经有了很多研究,但是仍然存在一些不足。实体踪迹发现的分析需要识别和利用实体事件与各种规律之间的关系,目前相关研究相对较少。

本文研究了网络实体事件的重复检测问题。研究目标是识别具有相同含义和不同表达的实体事件的表示。本文将实体事件的重复检测分为两个步骤:实体事件表示的重复检测和实体事件的重复检测。针对传统相关研究的不足,分别对实体事件重复检测的两个过程提出了相应的解决方案。主要工作和研究内容如下:

(1)针对实体事件表示的重复问题,根据商业领域中特定主体只能在同一时间、同一地点参与一项活动的规则,提出了一种“基于动态权重的线性组合方法”。主要使用时间、地点和主题三个主要属性,其余属性用作辅助属性。结合动态权重,获得两个实体事件表示的相似性,以判断事件是否重复。

(2)为了解决实体事件重复的问题,在实体事件表示相似度计算方法的基础上,进一步提出了实体事件重复检测的两种方法:基于实体事件属性的重复检测方法和基于实体事件关系的重复检测方法。第一种方法是直接比较方法,它直接比较要检测的实体事件。第二种方法是间接比较法,根据实体事件之间的关系,比较待比较实体事件的相关实体事件,进而得出两个待比较实体事件之间的关系相似度。两种方法相结合可以取得满意的效果。

参考文献(省略)