> 博士毕业论文 > 110410字博士毕业论文在线社区的用户信息挖掘及应用分析

110410字博士毕业论文在线社区的用户信息挖掘及应用分析

论文类型:博士毕业论文
论文字数:110410字
论点:用户名,方法,数据
论文概述:

本文是在职博士研究生论文,针对用户信息挖掘的非结构化挑战,本文研究了面向用户生成内容网页的用户名抽取问题,提出了一种弱指导学习的方法。

论文正文:

第1章简介

目前,在线社区中的大部分用户信息仅以超文本标记语言(超文本标记语言)网页的形式呈现。超文本标记语言是一种标记语言,主要用于数据显示,而不是结构化数据存储。因此,在线社区中的用户信息以非结构化的形式存在。超文本标记语言是网页的表面表示,对简单的文本检索任务几乎没有影响,但是很难执行更复杂和准确的数据挖掘和数据分析任务。例如,为了建立基于问答社区的专家搜索,需要准确提取元数据信息,例如用户名、用户发布时间、发布内容等。同样,为了构建其他社交应用程序或开展与社交计算相关的研究,应首先建立用户信息数据库,以记录每个网站的每个用户在任何时候的具体行为。图1-1显示了从各种用户生成的内容页面中提取用户信息并将其转换为结构化数据的示例。本例中提取的信息包括用户名、发布时间、发布内容等。对于只有一个社区,通过手动编写模板来提取准确的用户信息相对容易。然而,不同社区的网页布局和结构是不同的,这给不同在线社区结构化用户信息的抽取带来了很大的挑战。此外,每个社区的网页布局结构不断更新,这给基于模板提取用户信息的方法带来了更大的挑战。因为网页的布局结构是动态变化的,所以模板的维护非常困难。
……

第二章基于弱指导学习法的大学预科网页用户名抽取

2.1引言
为解决上述问题,本章提出了一种基于单页特征的弱引导用户名提取方法。具体来说,本章提出了一种通过使用少量由统计上罕见的字符串组成的用户名(如travelbug61)来自动收集和标记大量训练数据的方法。然后使用支持向量机对训练数据进行分类器训练,并从数据记录中提取用户名。本章提出的自动获取和标注训练数据的方法主要基于以下两个观察:(1)人们倾向于在不同的社区使用相同的用户名来减少内存开销;(2)为了达到在不同社区使用相同用户名的目的,许多人将他们的用户名编辑成统计上罕见的字符串,例如bennystar99,以避免与其他人发生冲突。一方面,本章提出的方法解决了指导方法需要大量人工标注训练数据的困难;另一方面,通过自动统计从大量的训练数据中获得许多有效的特征,从而解决了仅使用单页信息时手工编辑特征的局限性。

2.2大规模培训数据的自动获取和标记
本章提出了一种使用少量字符串自动收集用户名的方法。大多数网页属性提取方法都采用引导方法。定向方法通常是有效的,但是标记训练数据既费时又费力。本文提出的自动获取和标注训练数据的方法克服了这一困难。本章自动获取和标注训练数据的方法主要包括两个步骤:(1)获取大学教育资助委员会网页候选集;(二)在候选人名单上标记教资会网页,以及在教资会网页上标记用户名字段。然后需要有一个度量来描述一串用户名在统计上是否很少。提出了一种概率语言模型来度量用户名字符串的统计稀有性。编辑用户名的过程通常可以看作是一个生成过程。具体来说,人们使用单词的顺序组合来形成用户名,这些单词可以代表用户的真实姓名、生日等。因此,本文将用户名的语言模型概率定义为构成用户名的词序列的语言模型概率。用户名语言模型的概率越低,用户名就越少。因为许多社区不允许用户名之间有空框,我们必须首先分割用户名,然后估计语言模型的概率。例如,travelbug61分为travelbug、bug和61。

第3章……36
3.1导言............................36
3.2用户链指向问题分析............................38
3.2.1问题定义...................38
第四章基于竞争模型的用户专业水平评估……55
4.1导言……57
4.2用户之间专业水平的成对比较……59
4.3竞争模式……61
第五章基于用户信息的众包任务难度评估……79
5.1导言................79
5.2问题定义……81

第5章基于用户信息的众包任务难度估计

5.1简介
总而言之,杨等人[提出的基于问题图的PageRank算法93]不考虑竞争对手。其他众包任务难度估计方法[94–97]只能处理观察值为二进制的情况。然而,在具有竞争结构的众包服务中,观测值只包含部分偏序关系,而不包含二进制关系。同样,项目反应理论[98]只能处理二元观察值,不能处理偏序关系,也不能很好地处理稀疏数据。为了解决上述问题,本章利用用户专业水平的测量信息,提出了模型估计的难点。用户专业水平的测量为估计问题的难度提供了指导,解决了以往方法不能处理观测值的偏序关系的问题。同时,本章融合了问题的用户信息和文本信息,从而解决了数据稀疏的问题。最后,本章通过使用跨社区用户链信息来估计跨社区问题的难度。

5.2问题定义
在问答社区,任何用户都可以提问和回答问题。具体来说,当提问者ua问问题Q时,她将会收到多个回答者的回答。在收到的所有答案中,提问者将根据答案的质量选择最佳答案。提供最佳答案的被调查者被称为最佳被调查者。其他非最佳应答者由集合o = {uo1,uo2,...,单位}。因此,问答帖子可以由四元组(q,ua,ub,O)表示,包括问题q,提问者ua,最佳应答者ub和其他非最佳应答者O。图5-1 a)给出了问答帖子的示例。提问者问了一个问题,并从三个应答者(应答者1、应答者2、应答者3)那里得到了答案。其中,答案3的答案被选为最佳答案,所以答案3是最佳答案3。
……

结论

本文的主要研究内容和成果可概括如下:
(1)针对用户信息挖掘的非结构化挑战,研究了用户生成内容网页的用户名抽取问题,提出了一种弱学习指导方法。该方法利用少量字符串组成的用户名自动收集并标注大量训练数据,解决了现有学习指导方法需要大量人工标注训练数据的问题。同时,本文的方法通过统计计算从大量自动标注的训练数据中自动获取大量特征。一方面,它克服了手工编辑特征的局限性;另一方面,它克服了目前最佳性能方法对多页面特征和网站结构特征的依赖。
(2)针对用户信息跨社区的挑战,本文将用户链引用问题分为两个步骤:同名歧义消除和不同名称解析。本文重点解决同名歧义消除任务。首先,本文通过基于“关于我”的用户问卷调查和数据分析,定量说明了解决同名消歧任务的重要性。具体而言,问卷调查结果显示,89.17%的人有一个主要的用户名。
……

参考文献(省略)