> 硕士毕业论文 > 24561字硕士毕业论文基于时间发展的微博自适应话题跟踪研究

24561字硕士毕业论文基于时间发展的微博自适应话题跟踪研究

论文类型:硕士毕业论文
论文字数:24561字
论点:话题,追踪,模型
论文概述:

本文是研究生毕业论文,主要论述近年来,互联网的快速发展使得网络媒体逐渐成为人们生活中的一个重要信息分享来源和信息接受来源。随着网络媒体技术的日益成熟,实时分享已成为当今网

论文正文:

第一章引言

1.1论文的研究背景和意义
微博是一个即时互动的网络开放服务平台,不同于传统新闻媒体。它的内容和表现形式不同于传统媒体。微博内容简洁明了,限140字,有多种表达形式,如文本、图像、音乐、视频等形式的表达信息可以在微博平台上显示。用户不仅可以将图片、视频和其他相关网站的链接添加到他们的微博内容中,还可以转发和评论他们感兴趣的信息。与传统博客和论坛等其他新闻互动相比,微博服务的自由和开放也成为公众青睐的法宝。用户不仅是信息的被动接受者,也是信息的发起者。用户可以随时随地表达他们看到和听到的内容,也可以关注特定的话题或人物,随时表达自己的观点和意见。微博高度互动。每个用户可以关注任何用户或者被任何用户关注。这是一个双向互动的过程。
微博服务的快速发展给网民带来了便利,但也因其开放性和自由性带来了诸多问题。近年来,由于公众倾向于通过互联网表达自己的情感,互联网已经成为公众舆论的重要渠道,逐渐引起了专家、学者和相关部门的关注。微博是网民自由表达情感的重要网络平台。微博平台上不断涌现网民的态度、情感、情绪甚至发泄等信息。一些极端的言行或行为很可能误导大众,使某一特定事件的发展无法控制。也正因为如此,政府及其相关部门纷纷推出微博服务,试图及时发现网络舆情信息并给予正确引导。因此,利用微博平台及时发现网络的极端行为并密切跟踪,准确了解事件的发展状况和趋势,对于优化网络环境、控制事态发展具有积极有效的作用。
随着互联网的日益普及,微博信息量以惊人的速度增长,传播速度惊人。其影响力的大小也使得相关部门逐渐意识到微博网络舆情对公众的影响正在加深。因此,近年来,相关部门逐渐认识到微博网络信息对社会影响的重要性,并对微博网络信息进行挖掘和分析。网络舆情检测与跟踪技术已经受到重视。话题跟踪是及时有效地了解事件发展并有效预测其发展趋势的必要环节之一。近年来,政府及其相关部门相继加强了对微博信息平台的监管和深入研究,正是因为他们认识到对舆情信息的控制离不开对信息的有效监管和深入挖掘,话题跟踪技术是关键技术之一和重要组成部分。
.........................................

1.2研究现状
1.2.1国外研究现状
微博话题跟踪是近年来随着微博热潮在微博平台上开展的话题跟踪。它将新闻、博客和论坛等网站上的传统话题跟踪技术转移到微博平台上。因此,为了更系统地展示话题跟踪的研究进展,我们从话题检测和跟踪的研究入手。
1996年,国家标准与技术研究所(NIST)和国防高级研究项目局(美国国防部高级研究计划局)为了发展信息组织技术。为缓解人们日常信息过载的问题,组织了一系列活动,并开展了话题检测与跟踪的研究。TDT研究的最初目的很简单。希望新闻数据流的主题能够在没有人为干预的情况下被自动检测到[1]。主题跟踪任务是主题检测和跟踪[2-4的五个子任务之一。其主要功能是检测数据流,以找到特定主题的相关后续报告。其中,这一特定主题并未事先明确描述,而是通过之前几份相关报告中的简单培训获得的。总的来说,NIST提供1-4份相关报告作为以前的报告。为了更新和优化主题模型,NIST提供了训练语料库。利用当前话题模型,我们可以依次判断后续报道与当前话题之间的相关性,从而实现跟踪功能。
自1998年以来,TDT研究得到了重视,并得到了迅速而充分的发展。为了促进TDT向多领域、多语言的发展,TDT评估先后对广播数据和互联网数据进行了研究,涉及英语、阿拉伯语、汉语等语言领域。经过各种研究机构和大学的研究,也有一些代表性的作品。CMU·[5-6],厄普顿·[7]和乌马斯·[8]是三个具有良好跟踪性能的系统。CMU使用两种算法,包括最近邻算法(KNN)和决策树(决策树)进行跟踪研究。它首先通过KNN分类算法选择特定报告的K个最相关的先验报告,然后通过决策树算法选择最终的类别。UPEEN首先定义了一个主题模型,它是从更相关的报告和不太相关的报告培训中获得的。在跟踪过程中,无关报告不断被用来削弱话题模型中的无关因素,从而达到优化话题模型的效果。麻省理工学院是由麻省大学开发的。系统中引入了关联模型。清晰度调整后的离差用于衡量当前报告和主题模型之间的相关性。龙系统公司也对话题跟踪进行了相关研究。它采用语言模型和基于Kl散度的聚类算法相结合的方法进行话题跟踪。它的一个突出特点是,在建立语言模型时,它删除了诸如禁止词等弱代表性特征词,并使用退避技术来平滑语言模型[9]。韭菜建立了一个话题跟踪分类器系统。他使用简单贝叶斯分类算法的概率模型,对于不同的报告,系统使用不同的评估公式来计算当前报告和主题[10]之间的相似性。詹姆斯·艾伦设计了一个分类器来跟踪这个话题。该分类器基于经典的Rochio算法。在调整主题模型时,该算法主要采用经验构造策略来调整特征词[11]的权重。渡边是一个面向日本的话题跟踪系统。他使用时间特征词,如“当前发生的……”和“如前所述”来跟踪主题[12)。
.........................................

第二章相关技术

2.1微博相关知识介绍
2.1.1微博简介
微博起源于美国,由伊万·威廉姆斯开发创建。值得一提的是,这个人是博客的创始人。2006年——推特,世界上第一个微博服务,由伊万·威廉姆斯的公司明显推出。然而,当时微博的功能非常简单,只是通过微博服务平台向朋友发送文本信息。后来,随着网民对服务需求的逐步加深,明显在年底推出了微博服务网站推特(推特)。与最初的信息发送相比,微博用户不仅可以随时发送信息,还可以接收信息。推特的推出引起了网民的极大关注。他们发现他们可以通过推特找到朋友,随时发表自己的观点,获取他人的状态信息,并通过微博了解事件的发展。也正是因为这个原因,关于当时美国总统选举和迈克尔·杰克逊死亡的信息引起了美国公众的普遍关注,并在微博上迅速传播。
推特一经推出,用户数量迅速增加,用户范围不断扩大。2007年,中国出现了一些类似推特的网站,如做什么、不吃、纪薇、9911、同学。然而,由于技术问题,它们在2009年7月全部关闭。2009年8月,新浪公司的新浪微博内部测试版成为中国首家推出微博服务的网站。自2010年初以来,微博服务在中国蓬勃发展,腾讯、网易、搜狐和凤凰卫视的微博服务也开始起步。自那以后,微博在中国得到了广泛的传播和应用。
微博不同于传统新闻媒体,有其独特的特点。这里有几个简单的例子来说明微博的特点。
(1)微博文本简短,限140字。微博字数少,语言简洁明了,清晰易懂。虽然微博文本短小,信息匮乏,但微博信息有多种表达形式,包括文本、视频、音频、图片等多种表达形式。此外,可以说,通过向微博内容添加链接,微博信息丰富。
(2)微博信息是用户对当前正在发生的事件的描述和快速反应,具有即时性的特点。由于微博用户数量庞大、分布广泛,每个人都可以随时随地在微博上发布自己的所见所闻。经过仔细考虑后,很少有人发布信息。此外,微博不需要审计。用户可以随时通过手机、移动终端和其他设备自由发布信息。一些意想不到的事件也会很快被揭露出来。因此,微博具有时效性和突发性的特点。
(3)微博传播迅速,具有裂变特征。微博提供简单灵活的“发布”、“转发”和“关注”功能。用户可以通过点击鼠标来转发和关注当前感兴趣的话题。微博的“转发”和“关注”不需要对方的同意,这使得微博信息的快速传播成为可能。微博传播方式不是传统的一对一传播,而是一对多和多对多的裂变传播。如果消息由用户A发布,并且用户A有多个追随者,例如B1、B2、B3等。,如果他们对消息感兴趣,他们可以不受限制地转发消息,而B1、B2、B3等的追随者。可以转发B1、B2、B3等地的消息。,然后微博将在层层传播后以裂变方式传播。
(4)微博具有“互动”交流的特点,高度互动。微博用户可以随时发布和接收信息。它的转发和评论功能使微博更具互动性。微博互动不需要对方的同意。用户可以不受限制地转发和评论他们看到的信息。当然,其他人也可以不受限制地转发和评论自己的信息。
................................

2.2信息收集
为了在微博中找到热门话题,首先需要对微博进行数据收集。本文收集的语料采用正则表达式匹配方法。为了增强其收藏功能,还设置了主题搜索、网址添加和删除等功能的实现。收集的数据被处理用于数据检测和跟踪。数据预处理包括去除无用符号、分词和停止词的处理。用于从报告中移除无用的符号,例如网页标签、导航信息、句点、逗号、问号和其他无用的标点符号。如果不删除这些符号,网页的分析将受到影响。对于分词,中国科学院采用分词方法,去掉了“le”和“mo”等停止词。

2.3主题跟踪
2.3.1适应性主题跟踪及其常用方法介绍
主题跟踪是为了在后续报告流中识别已知特定主题的相关后续报告。一般来说,话题跟踪分为传统话题跟踪(TTT)和自适应话题跟踪(ATT)。一般来说,传统的话题跟踪有两种研究方法,一种是基于知识,另一种是基于统计。前者的核心问题是基于报告的内容。通过相关性检测分析两个报表之间的相关性或两个报表之间的继承性,通过相关性检测和领域知识将相关报表连接成一个整体。后者是通过统计概率分布特征后的专题统计报告和战略决策模型来判断相关性。自适应话题跟踪增加了一种学习机制,即具有自学习能力的话题跟踪。在判断报告之后,如果报告满足某个标准,则报告被添加到训练集中以训练主题模板,并且在适当的时刻从训练集中提取报告以训练主题模板。
在传统主题跟踪中,NIST在未知条件下构建主题模型时提供1-4份相关报告。然而,随着时间的发展,话题的焦点不断变化,原有的话题模型不足以表达当前话题的发展。因此,有必要根据话题的演变来调整话题模型。自适应主题跟踪是一种调整方法。ATT的研究方法包括基于内容和基于统计的方法。首先,计算主题与报告摘要之间的相似度。然后,对于后续的报告,经过相似度计算,结合相关报告的摘要和最初建立主题模型的事件,建立主题模型。该主题模型不仅包含了主题的中心主题,而且随着时间的发展覆盖了主题各个阶段的焦点,对后续报告具有较高的检测效率。但是,这种方法不使用自学习方法来更新模型。检测到相关性后,后续报告不用于更新模型。因此,该模型在跟踪后续相关报告时无效。然而,基于统计学的ATT采用自适应信息滤波方法实现话题跟踪。该方法的ATT具有自学习能力,减少了以往报告不足造成的跟踪效果不佳的影响,提高了话题跟踪能力。[龙和[都研究过ATT。两者都用检测到的相关报告更新主题模型。这两者之间也有一些差异。Dragon检测相关报告并使用语言模型来更新和构建主题模型。UMass使用所提供的先验报告来构建主题模型,计算主题模型和这些先验报告之间的相似度值,并以相似度值的平均值作为阈值。对于传入的后续报告流,如果相似度值大于阈值,则将其放入训练报告集中,然后通过上述方法重构主题模型和设计阈值。与传统的话题跟踪系统相比,这两种系统取得了较好的效果,但跟踪性能并没有很大提高。因为这实际上是一种错误的反馈,所以大量不相关的报告被添加到训练集中,这使得主题模型偏移并导致主题漂移。利斯米·[41]改变了这一缺陷。因为在选择培训报告的过程中,相关性较高的报告被选为培训报告。此外,LISMI比较了动态和静态权重更新策略的优缺点,提出了一种动态权重更新策略。
.........................................

第三章.................................................13
3.1问题描述..........................................................13
3.2基于时间序列的热门话题词检测.........................................13
3.2.1时间序列........................................................13
3.2.2坡度计算.......................................................................14
3.3主题提取...................................................................15
3.3.1主题词提取...............................................15
3.3.2主题词聚类..........................................................15
3.4实验结果和分析..........................................................16
3.4.1实验数据..........................................................16
3.4.2实验结果分析...............................................17
3.5本章概述......................................................20
。第四章........................................................21
4.1主题模型和报告模型代表....................................................................21
4.1.1特征词提取方法.........................................21
4.1.2特征词权重的计算......................................................21
4.1.3主题模型表示方法.........................................22
4.2基于相关性检索的特征术语扩展方法........................................................22
4.2.1问题描述..........................................................22
4.2.2相关工作..........................................................23
4.2.3提取......................................................23
来自基于领域加权评分的报告4.2.4基于领域加权评分的扩展特征词提取...............................................24
4.3基于时间衰减的特征词权重调整方法..........................................................25
4.3.1问题描述...............................................25
4.3.2相关工作......................................................25
4.3.3基于时间衰减的特征项权重调整方法...........................................25
4.4自适应主题跟踪方法描述......................................................26
4.4.1传统主题跟踪的实施..........................................................26
4.4.2自适应话题跟踪的特征..........................................27
4.4.3基于双重过滤技术的主题模板调整方法.............................................27
4.4.4自适应主题跟踪实施方法..........................................................29
4.5实验和结果分析........................................................30
4.5.1实验数据........................................................30
4.5.2实验评价指标.................................................30
4.5.3实验和设计结果表明..........................................................31
4.6本章概述.....................................................................33

第五章网络舆情监控系统的设计与实现

话题跟踪系统是本章介绍的舆情监控系统的一个子系统。其主要功能是从大量后续报告中筛选出与特定主题相关的报告。提出了一种基于时间发展的微博自适应话题跟踪方法,并将该方法应用于系统跟踪,并对系统性能进行了评估。

5.1系统的总体设计
5 . 1 . 1系统
舆情监控系统的设计目标是收集、聚类和分类信息,呈现用户感兴趣的信息或用户当前正在发生的热门话题,并直接过滤掉用户不感兴趣的信息或当前非热门话题。因此,系统不仅应该考虑呈现的结果,还应该考虑用户的接受度,以便系统可以舒适地呈现给用户。今天是一个信息爆炸的时代。由于网络的开放性、交互性和自由性,各种信息相互融合,使得一些突发事件出现在网络上。因此,相关政府部门开设微博,提供网络服务,以回应网络舆论。因此,开发网络舆情系统具有现实意义。
为解决话题跟踪中数据稀疏和话题漂移的问题,系统实现了数据采集和话题检测,重点设计话题跟踪,在此基础上计算话题热度,并最终呈现给用户。系统的功能设计目标如下:
(1)系统采用客户机-服务器模式,将数据收集和处理、话题检测、话题跟踪、热点话题发现和趋势分析放在服务器端。在服务器端计算和设计的基础上,民意结果将呈现给客户端用户。
(2)数据采集处理模块可以随机或根据某一主题采集数据,并将采集的数据切割成单词并存储在数据库中。
(3)话题检测(Topic detection)使用简单的聚类算法获得当前可疑的热门话题,并给每个话题一个相应的话题编号和话题模型,存储在数据库中。
(4)话题跟踪跟踪(Topic Tracking)跟踪上一步检测到的可疑热点话题的相关跟踪报告,以展示话题的发展趋势,为未来热点话题的发现和趋势分析做准备。
(5)热点话题发现模块根据跟踪结果计算发现的可疑热点话题的热度。如果热量大于某个阈值,它将被标记为热门话题。
(6)趋势分析模块的主要功能是分析当前热门话题的趋势,显示当前人们的情绪态度,并根据趋势字典综合计算趋势值,写入数据库供客户调用。
..........................................

第六章概述和展望

6.1本文概述
近年来,互联网的快速发展使网络媒体成为人们生活中信息共享和信息接受的重要来源。随着网络媒体技术的成熟,实时共享已经成为当今网络媒体中一项重要而广泛应用的技术。人们越来越喜欢利用互联网来分享他们的所见所闻,表达他们的感受和态度。微博作为一种实时互动媒体,因其自由、交互性和开放性而受到广大网民的青睐。人们可以在微博平台上表达自己的观点,分享自己的所见所闻,并及时获得在线新闻报道。随着微博用户的快速增长,微博信息量也急剧增加。由于微博的时效性、便捷性和先进性,人们逐渐倾向于从微博中获取当前正在发生的热点事件,并随时随地跟踪其发展。一方面,热点事件的发生往往会引起微博用户的关注,人们希望及时从微博平台上获取当前的热点事件。另一方面,人们更加关注热点事件的发展趋势,希望能密切跟踪事件,随时了解发展趋势。
针对当前用户对微博的主要需求,本文进行了研究,主要内容如下:
(1)分析微博话题的时效性特征,提出一种快速增长的微博热点话题跟踪方法。根据增长率,可以及时了解热门话题,从而及时捕捉热门话题。
(2)在微博话题跟踪中,话题模板对于数据稀疏性的静态不变性往往会导致话题漂移,导致召回率和准确率较低。为此,提出了一种基于时间衰减的特征词权重调整方法。针对数据稀疏问题,采用相关检索方法对特征词进行扩展。针对主题模板的静态不变性问题,采用带时间衰减的特征词权重调整方法调整特征词权重,采用双重滤波方法调整主题模板。
(3)将本文提出的基于时间衰减的微博自适应话题跟踪方法应用于网络舆情监控系统,系统性能有一定的提高。针对微博的特点和影响,提出了一种自适应话题跟踪方法,改变了传统话题跟踪中数据稀疏和话题漂移的问题,在一定程度上提高了话题跟踪的效率。
.........................................
参考资料(略)