当前位置: > 硕士毕业论文 > 23332字硕士毕业论文网络舆情检测、跟踪和分析技术研究

23332字硕士毕业论文网络舆情检测、跟踪和分析技术研究

论文类型:硕士毕业论文
论文字数:23332字
论点:主题,追踪,新闻报道
论文概述:

为了能够发现和追踪热点和敏感话题,产生了舆情监控分析系统。本文首先总结了舆情监控分析系统的国内外研究现状,针对当前网络舆情监控系统产品的不足,提出了本文的研究方向:主题探

论文正文:

介绍
1.1选题的背景和意义
互联网已经成为信息传播的主要载体。互联网上充斥着各种各样的信息,积极的、虚假的和反动的。互联网具有复杂性和可变性,其信息传播速度和影响力是传统媒体无法比拟的。当社会突发事件发生时,互联网上的舆论压力甚至可能导致事件恶化,进一步危及国家安全和社会稳定。因此,鉴于社会热点和敏感话题,政府和相关管理者有必要对其进行一定程度的引导和管理,即监测舆论主题,以防止局势恶化。为此目的建立了舆论监测和分析系统。热点敏感话题是网民更关注的话题,也是争论更激烈、影响更大的话题。一方面,它代表了人们的感受和公众意见,是网络真实生活的反映。因为它能反映人们的思想和愿望,作为公共社会生活的晴雨表和显示器,有利于政府采取相应措施解决社会存在的问题,确保社会的稳定与和谐。另一方面,网民倾向于对网络上的热门话题情绪化。许多人会发泄他们对互联网言论自由平台的不满。有些人甚至会故意利用当前的社会突发事件作虚假陈述,煽动网民情绪,给舆论造成压力,造成人心不稳,影响社会稳定。
国家政府和相关管理人员可以利用舆情监测分析系统作为工具,检测当前社会突发事件,寻找舆情热点话题,进而跟踪和进一步分析热点话题。它可以为政府和相关管理者提供理论依据,有利于政府和相关管理者采取相应措施来引导和控制当前的社会突发事件,从而确保人民和社会的稳定。此外,及时把握网络舆论引导和管理的趋势,有利于树立政府管理的良好形象,提高政府的公信力。目前,舆情话题的监控与分析已经成为网络舆情研究的热点话题之一。研究的主要内容包括:舆情话题的检测与跟踪,舆情话题的情感倾向性分析。
本文在对关键技术研究的基础上,对文本模型和相似度计算进行了一定程度的改进。针对话题漂移现象,提出了一种基于事件演化关系的话题检测和话题跟踪模型,以提高话题漂移现象发生时的准确率。此外,针对当前情感倾向分析模块的不足,提出基于事物多面性的情感倾向分析,以更好地把握文本的局部情感极性,提高网络舆情监控的作用,从而为政府管理者和相关部门提供理论支持。
1.2国内外研究现状
本文研究的舆情监控系统主要分为两个模块。第一个是主题检测和跟踪(TopicDetection and Tracking),这是美国国防高级研究计划局(DARPA)在1997年提出的一个概念。本研究的最初目的是以新闻报道流为对象,在新闻报道流中检测用户感兴趣的话题,跟踪话题,然后将与话题相关的新闻报道聚合起来以某种形式呈现给用户。二是情感取向分析,根据研究对象的不同,主要分为两部分:商品评论的情感取向分析和新闻文本的情感取向分析。下面将详细描述这两个模块在国内外的研究现状:
1.2.1主题检测和跟踪
1.话题检测和话题跟踪相关概念话题检测的任务是将获得的新闻报道经过处理后分成不同的新闻话题。如果新闻报道不符合现有的主题,将根据该新闻报道建立一个新的主题。由此可见,该任务类似于集群(系统不知道将建立多少主题)。任务可以分为两个阶段。首先,它检测新事件,系统将识别关于某个主题的第一个新闻报道,并根据该报道建立新的主题。第二是检测是否有与现有主题相关的新闻报道。
主题跟踪的任务是跟踪与后续新闻报道中已知主题相关的新闻报道。主题跟踪的工作流程如下:在待处理的新闻中,逐一判断与已知主题相关的新闻报道,实现对某一主题的跟踪。最初,国家标准与技术研究所(NIST)将TDT的任务分为五个部分,包括新闻广播报道的故事分段任务(SST)。已知主题的主题跟踪任务(TTT);未知话题的话题检测任务;未知主题的第一相关报告的第一层检测任务和报告之间相关性的链接检测任务[7】。随着研究的深入,NIST也改变了这些任务。例如,TDT2004取消了SST,首次提出了自适应话题追踪和分层话题检测的概念,HTD)。报告分段的目的是将新闻报告中不同主题的描述分成不同的主题。跟踪已知主题的目的是跟踪已知主题。
第二章介绍了相关理论……9
2.1中文分词……9
2.2文本模型.........10
2.3特征权重的计算方法.........12
第三章基于事件进化的话题检测与跟踪模型...................17
3.1改进的报告模式和主题模式……17
3.2特征词权重的计算和特征选择……18
3.3相似度计算...................19
第四章分析……23基于事物多面性的情感倾向性
4.1情感词典的构建……23
4.2情感分析三元组的提取……26
4.3情感取向分析...................27
摘要
目前,互联网已经成为人们在日常生活中获取信息的重要媒介,人们面临着大量的数据信息,人们希望从中获取自己感兴趣的话题信息,并及时获取与该话题相关的信息。仅仅依靠搜索引擎是不够的。因此,为了发现和跟踪热点和敏感话题,建立了一个舆论监测和分析系统。首先,本文总结了国内外舆情监控与分析系统的研究现状,并针对当前网络舆情监控与分析系统产品的不足,提出了本文的研究方向:话题检测与跟踪以及情感倾向分析。
参考
[1]第30届中国互联网发展统计报告,中国互联网中心,2012年7月
[2]主题检测和跟踪(TDT)评估研讨会。2002年主题检测和跟踪任务定义和评估计划[执行局/其他职等】。2006 04.
[3]艾伦、拉夫连科和斯旺。话题跟踪和检测的探索。主题检测和跟踪:基于事件的信息组织。克鲁沃学院:麦卡舒塞特,2002,197-224。
[4]JM·舒尔茨和我的自由人。面向多语言红外应用的通用词典。主题检测和跟踪:基于事件的信息组织。克鲁沃学院:马萨诸塞州,2002,225-241
[5]韭菜·T,施瓦茨·R·M,西斯塔·S .话题检测和跟踪的概率方法[·A]。基于主题检测和跟踪事件的信息组织[中心。Kluwer Academic马萨诸塞州,2002,67-83
[6]扬隆,吉利克,范·穆尔布雷格和斯·克内赫特。主题内容的http://sblunwen.com/ylxlw/统计模型[。基于主题检测和跟踪事件的信息组织[中心。Kluwer Academic Massachusetts,2002,115-134。
[7]王石。基于语义结构和时间特征的话题检测与跟踪研究,[,北京交通大学,2011
[8]杨益明、汤姆·奥尔特、托马斯·皮尔斯和查尔斯·拉蒂默,改进事件跟踪的文本分类方法。《第23届国际信息检索研究与发展会议录》(SIGIR-2000年),2000年,65-72页
[9]艾伦、拉夫连科和斯旺。话题跟踪和检测的探索。主题检测和跟踪:基于事件的信息组织。克鲁沃学院:麦卡舒塞特,2002,197-224。
[10]库马兰,艾伦j .文本分类和新事件命名实体检测[。在第27届年度国际AMC SIGIR会议记录[。美国纽约州纽约市:美国计算机学会出版社,2004: 297-304