当前位置: > 因子 > 转发特征分析与提取,根据模型制作的问卷,因子分为3个部分,但spss因子...

转发特征分析与提取,根据模型制作的问卷,因子分为3个部分,但spss因子...

转发特征分析与提取

根据模型制作的问卷,因子分为三个部分,但spss因子...运用主成分分析法进行因子分析,判断并提取几个因子。首先,参考特征值和砾石图。通常,提取默认特征值大于1的因子。同时,参考砾石地图。砾石图中的几个因素是“陡峭的”,并且提取了几个。最后,我们必须看看累积方差贡献率。所有提取因子的总贡献率应超过40%。可靠的

简述图像特征提取与分析有何作用

在数字通信领域,数字信号通常被表示在复杂的平面上,以可视地表示信号和信号之间的关系 这张图是星座图。 数字信号可以用复杂平面上的点来表示的原因是数字信号本身有复杂的表达式 虽然信号一般需要调制到更高频率的载波上进行传输,但事实上,学习数字图像处理的关键不是源代码(它不同于一般的编程,这是一次体验性的谈话,事实上,一般的导师可能无法编程,但如果你和他谈论你的方法,他一般可以切中要害),但你可以理解概念和适用的地方。 基于颜色、纹理和形状,它们都属于低级特征。你知道平时你的血压和血脂怎么样吗?你平时有什么不适症状吗?右心室高压是右心室心肌肥厚的一种表现。传导阻滞和心动过速被认为与心肌缺血有关。通常,应该更加注意休息、饮食、清淡食物、油腻食物、新鲜水果和蔬菜。主成分分析要求数据接近正态分布,不需要严格的正态分布条件。一般来说,样本量超过100个基本符合条件。 聚类分析对数据的要求是每组聚类内的方差很小,而组间的方差很大。通常,只要方法选择得当,这一要求将相对容易实现。 静态空隙(内部[)组){内部温度;int pos = 0;对于(int I = 0;i&lt。团体。长度-1;i++) { pos=i。(intj = I+1;j

根据模型制作的问卷,因子分为3个部分,但spss因子...

根据模型制作的问卷,因子分为三个部分,但spss因子...运用主成分分析法进行因子分析,判断并提取几个因子。首先,参考特征值和砾石图。通常,提取默认特征值大于1的因子。同时,参考砾石地图。砾石图中的几个因素是“陡峭的”,并且提取了几个。最后,我们必须看看累积方差贡献率。所有提取因子的总贡献率应超过40%。可靠的

简述图像特征提取与分析有何作用

转发特征分析与提取范文

本文的目录导航:

[标题]探索微博用户转发预测专用证书
[第1章]微博转发预测特征选择介绍
[第2章]用户转发预测特征相关知识介绍
[第3章]用户转发预测的数据预处理
[第4章]转发特征的分析与提取
[第5章]微博用户转发特征选择实验
[第6章]过滤特征子集与包装特征子集的比较
[第7章]微博转发

第四章特征分析与提取
本章主要分析了用户转发一条微博的可能影响因素,综合相关文献,以,[13],[19]为主,从用户特征、作者特征、微博特征、兴趣特征和社交特征等方面提取了大量可能影响用户转发行为的特征,然后详细介绍了复杂特征的提取方法和过程,将提取的特征表示为实值矩阵并做了归一化处理。最后通过转发预测实验对比分析了不同类型特征对转发预测的重要性。
4.1 影响因素分析

用户转发一条微博的原因繁多,可能是对作者的支持,可能是公开赞同或反对某个观点,可能是为了分享趣味的信息吸引粉丝,或仅仅是为了保存有价值的内容以便回顾,等等[37].因为一次转发行为涉及用户自己、微博和作者三个实体,本文从这三个实体及他们之间的联系出发分析用户转发一条微博的影响因素,从用户特征、作者特征、微博特征、兴趣特征和社交特征几个方面分析汇总影响用户转发行为的特征。
(1)用户特征微博中的用户拥有不同的性格与行为习惯,用户在微博中的表现体现了用户个体间的差异性。用户特征主要有以下几点:①用户是否认证,认证用户身份信息真实,更愿意维护自己在微博中的影响力,转发高质量的信息;②用户注册时间,注册时间长的用户熟悉平台,添加了大量感兴趣的关注用户,也构建了较完善的社交关系,转发的概率更高;③用户发布微博数量,代表用户在微博平台上是否有持续的活跃度;④用户最近一次转发时间,用户最近一次转发距今的时间间隔,代表用户转发的频率;⑤用户关注人数,体现了用户对微博的接受程度;⑥用户粉丝人数,用户为了维持粉丝的兴趣,会较频繁的转发微博;⑦用户权威度,用户的粉丝人数与关注人数的比例,反映了用户的活跃度。⑧用户被@次数,用户在其他微博中被@的次数。
Oulasvirta A提出,用户频繁更新内容和状态的长久动力,是用户在微博中是否得到互惠与反馈[38],用户粉丝人数、被@次数等反映了用户是否得到周围节点的交互与反馈。
(2)作者特征Mathioudakis等通过实验发现,微博中作者的影响力显着影响信息的传播趋势与范围[39].这里的作者不一定是微博的原创作者,指的是用户转发微博的上一级用户。直接衡量作者的影响力比较困难,但可以从多方面来综合描述:①作者是否认证,政府、企业等官方微博需提交相关信息认证,个人认证需提供真实身份信息,因此认证用户更愿意维护自己在微博中的影响力,发布高质量的信息,同时也更容易获得其他用户的信任;②作者注册时间,注册时间长的作者长期的在线行为积累了较高的影响力,也构建了较完善的社交关系,粉丝与好友数量更多、质量更高;③作者最近一次被转发时间,作者的微博最近一次被转发距今的时间间隔,时间越短,表明作者的受欢迎度更高;④作者被@次数,作者在其他微博中被@的次数,代表作者的受欢迎程度;⑤作者权威度,作者的粉丝人数与关注人数的比例,一般有影响力的用户有更多的粉丝数,甚至比关注人数多很多倍,这一比例反映了作者的影响力;⑥名人分数,表现微博转发路径中名人的作用。如果有很多名人转发一条微博,由于名人的影响力较大,该微博将更容易被用户重视。
(3)微博特征微博除了文本特征外,还包含链接、标签、@好友等附加特征,有的微博在几分钟内就能被几万人转发,有的微博却鲜有人问津,本组特征旨在反映微博内容的这种差异性:①微博是否含有URL,含有URL的微博内容更丰富。②微博URL数量;③微博是否含有标签,含有标签的微博提高了被检索的概率,更容易被关注相应标签的用户找到并转发;④微博长度,微博包含的实体词数量,实体词越多,承载的信息越多,对浏览微博的人吸引力更大;⑤微博被转发次数,微博过去一段时间被转发的次数,表现微博内容是否易被用户接受;⑥微博平均TF-IDF值,微博中所有词语的TF-IDF值与微博长度的比值,这个值越大,表明微博的价值越高;⑦微博创建时间,一般情况下,更新时间越近的微博内容时效性更高;⑧微博最近一次被转发时间,微博最近一次被转发距今的时间间隔,表明了微博目前的流行度;⑨微博传播路径长度,以作者为根节点,到达用户所经过的节点数,传播路径越长,意味着微博内容更精辟或透彻,具有代表性;⑩微博话题流行度,一般刚爆发的话题会吸引更多人的关注,在短时间内迅速传播,而对于较长时间不再流行的话题人们一般表现出较少的兴趣;?微博影响人数,用户接收到微博时,已转发该微博的人数。过去转发的人数越多,说明该微博的内容被接受的概率越高。
(4)兴趣特征一般用户倾向于转发与自己兴趣相似的用户和微博,用户的历史转发记录是用户兴趣的集中呈现,本文综合的兴趣特征主要有:①用户间兴趣相似度,一般用户更倾向于转发与他兴趣相似的人的言论,作者历史发布的内容与用户历史发布的微博内容越接近,他们的兴趣越相似;②用户间近期兴趣相似度,用户的兴趣动态变化,具有时效性,用户近期的转发历史更能反映用户目前的兴趣;③关注列表相似度,关注列表隐含地显示了用户的兴趣与关注方向,用户间关注列表越相似,两者兴趣很可能越相似;④粉丝列表相似度,一般粉丝关注某用户是因为与该用户某方面相似,如果两个用户的粉丝相似度越高,则他们很可能彼此相似;⑤共同粉丝分数,用户与已转发该微博的用户的共同粉丝人数越多,且已转发该微博的人数越少,用户越可能具有相同的兴趣并做出相似的转发行为;⑥加权共同粉丝分数,在共同粉丝分数的基础上,认为两个用户的共同粉丝的关注用户越少,对衡量两者之间相似性的权重越大;⑦多级关注分数,假如用户的很多关注者共同关注了另一个微博用户,则用户与该微博用户很可能兴趣相似;⑧内容兴趣相似度,用户历史发布的微博集中表现了用户的兴趣,所接受到的微博内容与用户的兴趣越接近,越可能被转发;⑨转发相似度,用户历史转发的微博表现了用户的转发习惯与兴趣,一般用户过去喜欢转发的微博未来也会转发。
(5)社交特征Adamic提出社交网络符合小世界特性[40].Kang分析了新浪微博用户的发帖行为,认为用户之间通过关注、转发等构建的社交网络是一个典型的小世界网络,具备复杂网络的多种特性[41].与现实生活中人们分享与交流信息相似,不可否认,微博用户的转发行为在一定程度上与社交相关。社交特征主要有:①是否相互关注,相比单向关注,双向关注一般为朋友关系,对用户有更大的社交影响力。Weng等提出相互关注现象可以用社会学中的同质理论解释,用户倾向于与自己相似的人成为朋友[42];②是否同一城市,地理上接近的用户在线下有更大的概率是朋友,通过两个用户的地理位置可以初步判断他们在现实生活中是朋友的可能性;③用户对作者的转发率,用户转发作者的微博占用户全部转发微博的比例,比例越高,说明用户对作者的信任度更高;④最近一次交互时间,在社交网络中,用户之间的关系越密切,交流就越频繁,作者对用户的社交影响力就越强;⑤用户@作者次数,次数越多,表明用户与作者的联系更密切;⑥相邻节点转发微博的人数,当用户的相邻节点反复传递相同的信息时,会影响用户的行为决策,使用户对该信息的接受程度增强[43].⑦相邻节点转发微博的朋友数,与单向关注的用户相比,双向关注好友与用户的关系更密切,好友的转发行为对用户是否转发有重要影响。⑧是否共同认证,用户和作者共同认证时,两者的活跃度都较高,可能会互相影响,提高转发的概率。
4.2 特征提取用户
粉丝人数、微博长度等,计算简单,可以直接作为特征,本文直接利用Python提取字段,经计算后转化为数字特征。对于文献中提出的较复杂的特征,本节将详细介绍他们的提取方法与实现过程。
(1) 用户权威度一般有影响力的用户有更多的粉丝数,甚至比关注人数多很多倍,而普通用户一般关注人数更多,或两者相近,因此使用用户粉丝数和关注人数的比例表示用户的权威度,计算公式见(4.1):(3) 微博话题流行度一般人们会更关注刚爆发的热点话题,因此可以从微博过去一段时间的影响范围和时效性来衡量微博话题流行度。本文使用公式(4.3)计算微博话题流行度:




4.3 特征表示
本文提取的所有特征如表3所示,其中序号1~8为用户特征,序号9~14为作者特征,序号15~25为微博特征,序号26~34为兴趣特征,序号35~42为社交特征。
本文将所有特征按表达形式分为实数值特征和类别特征,在表3中,特征名称中标注*号的为类别特征,其余为实数值特征。因为这些特征指标范畴不同,度量范围与数量级差别很大,比如粉丝数范围可以达到百万,而用户转发率却在0和1之间,因此,为了减小各特征指标数量级间的差异,以便于进行综合对比评价,尽可能对各个特征作了归一化处理。本文采用最大最小值归一化方法将实数值特征归一化到[0,1]区间,类别特征归一化成和为1,归一化公式见式(4.11)。
4.4 不同类型特征
预测性能对比本文从用户特征、作者特征、微博特征、兴趣特征和社交特征五个方面汇总了五组特征,每组特征代表一种类型,为了探究不同类型特征对用户转发行为的影响,使用不同类型的特征训练建立因子分解机预测模型,在测试集上对用户的转发行为进行预测。模型的预测结果如表4所示。
从表中可以看出,兴趣特征训练建立的因子分解机模型预测性能最好,且远远优于其他类型的特征,对用户转发预测的贡献最大,说明用户的转发行为主要受兴趣的影响。
微博和社交特征对模型转发预测也有较大的影响。而用户特征和作者特征的预测准确率较低,召回率和F1度量几乎为0,但是两者预测的查准率很高,用户特征甚至达到了100%,因此本文统计了五组类型的预测结果的混淆矩阵,如表5~表9所示。


从几种类型特征预测的混淆矩阵中可以看出,因为实验数据集本身正负样本比例不平衡,用户特征将不转发预测为转发的数据为0,造成在正确预测转发的数量仅为4的情况下查准率达到了100%.一般在微博用户转发预测中,认为正确预测转发更重要,从混淆矩阵的整体预测情况来看,兴趣特征的预测结果最好,接下来是微博特征和社交特征。
本文同样绘制了五种类型特征预测的ROC曲线,对不同类型特征的预测性能进行综合评价,预测结果如图3所示。
从图中可以明显看出,兴趣类型特征预测的ROC曲线最靠近左上角,AUC面积最大,达到了88.5%,与信息检索常用的评价指标评价结果类似,兴趣特征对模型预测性能的贡献最大,说明兴趣类型特征对微博用户转发预测的重要性最大。其次是微博特征,对模型预测性能的影响也较大,对用户转发预测有一定的重要性。其他类型特征对用户的转发行为影响较小。可见,微博作为一个社交媒体平台,本质上仍是一个人们获取感兴趣信息的媒体平台,因此,挖掘并推荐用户感兴趣的内容,能够提高用户对信息的接受度,有利于针对性的实现个性化推荐与精准营销,同时,生产高质量的微博信息,对增强用户粘性,促进微博信息的传播等具有重要意义。
4.5 本章小结
本章首先细致分析了用户转发行为的影响因素,然后详细介绍了实验特征的提取方法,对复杂特征,详细介绍了特征提取的过程。因为提取的实验特征指标范畴不同,进一步对其进行了归一化处理,表示成实值矩阵的形式。最后使用不同类型特征训练建立因子分解机模型,通过模型预测结果对比分析了不同类型特征对转发预测的重要性。