> 数据 > 用户转发预测的数据预处理,数据预处理的主要方法是什么

用户转发预测的数据预处理,数据预处理的主要方法是什么

用户转发预测的数据预处理

数据预处理的主要方法是什么?1.基于粗糙集理论的约简方法粗糙集理论是研究不精确和不确定知识的数学工具。目前,KDD对此非常重视。粗糙集理论是一种非常有效的数据降维方法。我们处理的数据通常信息模糊。

用户转发预测的数据预处理

负荷预测中 数据预处理和 预测数据修正 是不是有一...

1.狭义负荷预测(正常运行负荷)是制定发电计划的前提;2.广义负荷预测(极端气象灾害影响下的负荷)是电网安全预警的重要环节。3.负荷预测的方法很多,不容易总结。主要有以下几种,主要是针对狭义的负荷预测:1)时间序列。数据挖掘通常需要大量数据,挖掘和分析少量数据需要很长时间。数据约简技术可以用来获得数据集的约简表示。它小得多,但仍接近于保持原始数据的完整性,结果与还原前相同或几乎相同 数据预处理是数据挖掘的一个研究热点。数据挖掘是从一堆数据中找出输入和输出之间的关系,然后根据新的输入预测输出。 一个简单的例子:例如,你有北京的房价数据。从一月到十月,房子的不同区域对应不同的价格。 现在是十一月,然后有一栋100平方米的房子。你认为价格应该是多少?这是从,1。基于粗糙集理论的约简方法粗糙集理论是研究不精确和不确定知识的数学工具 目前,KDD对此非常重视。粗糙集理论是一种非常有效的数据降维方法。 我们处理的数据通常具有信息的模糊性(数据预处理是一个非常宽泛的术语。例如,通过描述性分析,在数据中发现缺失值,然后对缺失值进行一定的处理。这叫做预处理。例如,通过描述性分析,发现存在超过数据正常值范围的最大值或最小值,并且需要删除处理或其他处理。这也称为预处理。例如,通过初始和最终处理,执行数据处理。

数据预处理的主要方法是什么

数据预处理的主要方法是什么?1.基于粗糙集理论的约简方法粗糙集理论是研究不精确和不确定知识的数学工具。目前,KDD对此非常重视。粗糙集理论是一种非常有效的数据降维方法。我们处理的数据通常信息模糊。

用户转发预测的数据预处理

负荷预测中 数据预处理和 预测数据修正 是不是有一...

用户转发预测的数据预处理范文

本文的目录导航:

[标题]探索微博用户转发预测专用证书
[第1章]微博转发预测特征选择介绍
[第2章]用户转发预测特征相关知识介绍
[第3章]用户转发预测的数据预处理
[第4章]转发特征的分析与提取
[第5章]微博用户转发特征选择实验
[第6章]过滤特征子集与包装特征子集的比较
[第7章]微博转发

第三章数据预处理
本章首先对源数据集的获取作了简单的说明,然后主要介绍了数据预处理的过程:
首先介绍了数据清理的过程,包括核对数据,去除噪声数据等,然后介绍了用户转发预测负样本的识别与获取算法,最后描述了对微博文本内容实现分词、去停用词的方法和过程。
3.1 数据集说明
本文的实验数据使用从Aminer(www.aminer.cn)网站下载的公开数据集Weibo-Net-Tweet.该数据集由Zhang Jing贡献,其采集过程为:首先随机选取100个微博用户作为种子用户,然后以这些用户为中心,沿关注网络依次爬取这些用户的关注者和他们的关注者的关注者的信息,对关注网络中的每一位用户,爬取他们的基本资料信息、用户间的关注关系信息及每位用户最近发布的1000条微博内容信息。爬取过程持续了一个月时间,最终爬取的数据集包含170万条用户数据,4亿条关注关系数据和10亿条微博内容数据[32].
微博3.2 数据预处理
数据预处理为数据分析和分类模型的训练提供较高质量的数据,是机器学习分类预测的基础。本文对获取的源数据集进行了一系列的预处理,包括数据清理、识别用户转发预测的负样本和微博文本的分词、去停用词等。
3.2.1 数据清理
源数据集包含多个文本文档,数据以文本形式分别存储。其中转发记录文档存储了爬取的转发微博列表记录,因为文献[32]只关注是谁转发了微博而不关心这一微博是从哪个用户转发而来,转发列表记录数据中没有包含微博作者的数据,本文需要研究微博作者的相关特征对用户转发行为的影响,因此通过转发列表推理完善了作者数据。微博文本内容文档列出了爬取的微博的文本内容,因为微博的爬取过程持续了一个月,部分微博被用户主动删除,导致微博内容列表中显示出错,本文剔除了这部分无效的微博数据。关注网络文档描述了每位用户的关注用户的信息,以及他们之间是否是相互关注的关系等。用户基本资料文档描述了每位用户的基本信息,包括用户ID、互相关注关系数量、城市、是否认证、关注人数、位置、省份、粉丝人数、昵称、性别、注册时间、认证类型、发布微博数量、个人描述等。本文过滤了数据集中转发微博次数小于15的低活跃度用户,因为这些用户在数据集的历史行为很少,难以对其转发行为进行预测。本文对这些文本文档中的数据进行筛选、清洗、采样,得到的实验数据集的统计信息如表1所示。
3.2.2 负样本识别
用户转发行为的正样本很容易识别,可以在源数据集爬取的转发列表记录中提取。
而用户转发微博的负样本识别比较困难,因为从数据集中无法直接判断用户不转发一条微博是因为不感兴趣,还是因为根本没有看到该微博。一般用户接收到的微博在其首页上以时间的倒序显示,他的关注用户后来发布的微博会覆盖时间更早的微博。因为用户使用微博的时间有限,微博内容的产生频率又极高,尤其对于关注人数上百上千的用户来讲,很可能因为信息过载错失感兴趣的消息。因此,用户没有转发一条微博,很可能是因为根本没有看到该条微博,这样的未转发记录不应该作为负样本。为了准确识别微博转发预测的负样本,本文以用户的转发动作为根据,定义了微博用户转发行为负样本识别算法,如表2所示,其基本思想为:若用户转发了一条微博,很可能在用户首页的微博列表上这条微博前后的2条微博用户也已经查看,这4条未转发的微博才定义为负样本。
3.2.3 文本分词
为了后续更好的提取微博文本特征,本章对微博本文内容做了分词、去停用词的预处理。英文文本单词之间有空格,可以直接使用空格和标点符号实现分词,而中文文本以字为单位,词与词之间没有明显的边界划分,必须通过分词算法来实现人为的切分。
现有的中文分词方法主要有基于词库的方法,基于理解的方法和基于统计的方法[33].基于词库的方法采用字符串匹配模式,通过与分词词典中的词条逐个匹配来识别词语,易于理解与实现,但分词准确性严重依赖于所采用的词库,难以适应新词较多的应用领域。
基于理解的方法根据语言学规则对文本进行句法和语义分析,模拟人对句子的理解识别词语,对推理机的完备性与知识库的覆盖程度要求较高,尚处于试验阶段。基于统计的方法根据字符串在语料库中的统计频率判断其是否是一个词语,其突破了对分词词典的依赖,能较准确识别未登录词与歧义词,缺点是需要在分词前训练学习模型,时间复杂度较高。
本文使用结巴分词系统[34]实现微博文本的分词、去停用词。结巴分词使用分词字典进行字符串匹配分词的同时,根据字符串在语料库中的统计频率来识别新词,将字符串匹配的高速度与字符串频率统计识别新词、消除歧义的特点相结合,分词效率更高。结巴分词安装简单、代码清晰,可以通过jieba.load_userdict(file_name)接口自定义字典语料库,还可以在分词过程中利用add_word(word, freq=None, tag=None)接口添加新词,保证更高的正确率。本文字典语料库主体采用结巴分词本身提供的语料库,因为微博消息文本内容不受题材限制、涉及领域广博,包含大量的专有名词和网络词语,因此本文在结巴分词语料库的基础上添加了专有名词和网络词语来提高分词的准确性。为了提取主题词语,使用jieba.analyse.extract_tags(sentence, top K=20, with Weight=True)接口实现基于TF-IDF算法的关键词提取,返回带权值的关键词。
微博文本中的介词、副词等,如“在”、“啊”,还有一些应用十分广泛的词语,如“我”、“是”等,因句子结构需要,几乎在每篇文章中都会高频出现,但在文本内容上没有特征性,都属于停用词。在文本挖掘中,停用词不仅占用大量存储空间,降低文本处理效率,还会影响文本特征的表示。
Yang Yiming等通过实验证明,通过去停用词来消减特征向量,几乎不会影响文本主题的表现[35].本文在分词过程中同时使用函数去除停用词。去停用词的难点是停用词表的获取。一般停用词表的构造需要以语言学的知识为基础,从语料库中统计高频的字或词,通过人工确认,并在分词过程中不断更新。不同停用词表在构造时使用的语料库不同,是造成处理效果不同的重要原因。因此,对于不同的应用,选取与处理领域接近的语料库生成的停用词表会取得更好的效果[36].微博文本涉及领域广泛、类型丰富,因此,本文使用对于文本类型丰富的语料库整体作用效果最好的百度停用词表作为停用词表[36],在结巴分词系统中通过jieba.analyse.set_stop_words(file_name)接口自定义停用词表。在分词的过程中,根据处理效果,本文在原有停用词表的基础上加入了部分特殊字符,以更好的去除无用内容。
3.3 本章小结
本章对实验前的数据准备做了详细介绍,首先对获取的源数据做了简单介绍。然后介绍了数据预处理的过程,对数据清理的内容和过程做了说明,介绍了识别正负样本的方法,详细介绍了识别负样本的思想与算法,介绍了对微博文本数据实现分词和去除停用词的处理过程。