> 硕士毕业论文 > 20000字硕士毕业论文话题检测技术在在线新闻判定中的应用

20000字硕士毕业论文话题检测技术在在线新闻判定中的应用

论文类型:硕士毕业论文
论文字数:20000字
论点:话题,检测,报道
论文概述:

本文以文本形式的新闻报道作为处理对象,根据网络新闻话题的特点,借助信息抽取(IE)、自然语言处理、机器学习(ML)等地方的方法和理论,研究了新闻话题模型的构建,网络热点新闻话题发现

论文正文:

第一章是绪论

1.1 课题背景和研究意义网络新闻作为最重要的信息类型之一,也是人们日常生活中最为关注的信息类型之一。人们希望从海量的网络新闻信息中及时全面的获取自己感兴趣的新闻。因此,如何有效地组织和分析新闻信息,快捷准确的获取感兴趣的新闻信息已经成为信息时代普遍关注的问题。针对这个问题,各种信息检索、过滤、提取技术被提出。目前的各类检索技术都是基于关键词匹配,如果含有指定关键词,就将其作为结果返回,这导致返回的结果中会含有很多无关的信息,有价值的信息被湮没在大量冗余信息中,难以对其进行及时的发现和有效地管理。为此,将话题作为主线对信息进行组织,成为目前国际上一个新的研究热点。由于事件存在着多个侧面的描述和不同角度的分析,而且这些信息通常是孤立的,分散在不同的角落,事件本身也会随着时间的推移不断发展变化。因此,如何对分散多变的相关信息进行组织,自动把相关话题的信息汇总是当前需要解决的难题。话题检测与追踪技术可以将分散的信息自动汇聚并组织,帮助人们全面了解一个事件的所有细节以及事件之间的关系。其中,话题检测(Topic Detection)、话题追踪(Topic Tracking)是 TDT的两项子任务,在金融证券、信息安全、行业调研等地方有着非常广阔的应用前景。本文研究内容正是在以上研究的基础上确定的。本文以文本形式的网络新闻数据流为处理对象,研究 TDT 中话题检测的关键技术,并重点对文本相似度计算和聚类算法中存在的不足进行改进,提高话题检测的准确率,减少信息过载和信息冗余给人们带来的困扰。
 1.2 国内外相关技术及研究现状随着研究的逐步深入和不断发展,历次 TDT 评测的侧重点都有所不同,因此相应的评测任务也随之有所更改。2004 年,TDT评测增加了新事件检测(New Event Detection,简称 NED)任务和层次话题检测(HierarchicalTopic Detection,简称 HTD)任务。在 TDT 评测会议的驱动下,TDT 越来越受到重视,已经成为一个新兴的研究热点。每年都有很多国外著名的机构参与评测,其中包括知名大学、公司和研究机构,如 IBM Watson 研究中心、BBN、卡耐基-梅隆大学(CMU)、马萨诸塞大学(UMASS)、宾夕法尼亚大学等。国内在 TDT 方面的研究开始较晚,在 1999 年,国立台湾大学参加了 TDT 话题检测任务的评测。香港中文大学参加了 TDT2000 某些子任务的评测。从 2003 年开始,北京大学计算语言学研究所、中科院计算所和哈尔滨工业大学等开始进行这方面的技术跟踪和研究,但是相关研究成果报道不多。到 2008 年,TDT 成为国内研究的一个热点,越来越多有名的研究机构开始进行 TDT 相关技术的研究,如东北大学、复旦大学、微软亚洲研究院、清华大学等。目前,一些研究机构将 TDT 应用到社交网络、论坛、微博客中[6-8],并取得了良好的效果。话题检测作为 TDT 的一个子任务,主要任务是检测新话题的出现以及将后续报道加入相关话题簇。话题检测本质上类似于无监督聚类,但聚类方式是增量式的,即在最后决策前,不能或只能向前看数量有限的报道。目前国内外对话题检测技术的研究主要包括三个方面:(1) 话题模型表示目前常用的话题/报道模型表示方法主要是向量空间模型(Vector Space Model,简称VSM),此外还有语言模型(Language Model,简称 LM)和相关性模型(Relativity Model,简称 RM)。Allan 和 Schultz 采用 VSM 模型对报道的特征进行空间建模,根据特征在文本中的概率分布计算权重,利用余弦夹角公式度量报道之间的相关性[10,11]。Leek 和 Yamron 将两篇报道分别看作一个话题和一篇报道,采用 LM 模型描述报道产生于话题的概率,并通过调换角色,分别从两个方向估计它们的产生概率,判断话题和报道的相关性[12,13]。张晓艳等提出了一种动态信息扩充技术,用于改进报道表示模型,该技术采用过去最新的话题相关报道来扩充当前报道,动态更新原有模型。(2) 检测算法改进目前在话题检测算法上的改进主要有关键词选取、权重设置、阈值调整、相似度计算方法和聚类算法的改进。Nallapati 等提出了在话题内进行事件检测的概念,并给出了相应的评价方法和测试数据。贾自艳等借鉴 Single-Pass 聚类思想,结合新闻要素的特点,提出了一种基于动态进化模型的事件探测和追踪算法。于满泉等针对新闻事件的特点提出了比较有效的单粒度话题识别方法,在话题组织上还提出了基于多层聚类的 MLCS 算法,实现对话题的层次化组织。洪宇等提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型。张阔等提出了基于事件词元委员会的事件检测与关系发现方法,通过挖掘并利用每个
 第二章 话题检测相关技术
 2.1 话题检测技术概述话题检测技术是一种自动检测新话题的出现,并将后续的相关报道加入相应话题簇的智能信息获取技术[9]。该技术能够从若干连续的网络新闻报道流中检测出新事件及其相关的报道,并以话题的形式对新闻报道进行归类和组织,智能的获取用户感兴趣的热点新闻话题,方便检索和浏览。
 第三章 基于核心词簇的网络热点话题发现..................153.1 相关工作 ...................153.2 热点话题发现模型 .......................163.3 基于核心词簇的热点话题发现算法 ......................193.4 实验与分析 .....................203.5 小结 .....................23第四章 基于 LDA 的新闻话题子话题划分方法............244.1 相关工作 .......................244.2 文本表示 ....................254.3 改进的相似度计算方法 ......................264.4 基于 LDA 的子话题划分算法 ......................284.5 实验及分析 .....................294.6 小结 ....................33第五章 总结与展望...................345.1 总结 ....................345.2 展望 ................34
 结论
 随着互联网技术的飞速发展,网络成为民众表达自己对各种社会事件、社会热点问题、社会冲突和社会活动等所持有的态度、观点的新渠道。如何有效地组织和分析新闻信息,快捷准确的获取到某段时间内的热点新闻信息已经成为信息时代普遍关注的问题。本文以文本形式的新闻报道作为处理对象,根据网络新闻话题的特点,借助信息抽取(IE)、自然语言处理、机器学习(ML)等地方的方法和理论,研究了新闻话题模型的构建,网络热点新闻话题发现以及热点话题的子话题划分问题,并提出了行之有效的检测算法。(1) 本文总结了最近几年的国内外研究进展状况,分析了目前话题检测技术所面临的问题并提出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并基于这些技术探讨了了本文研究的主要内容和研究重点。(2) 对话题模型的构建做了深入研究。本文结合网络新闻报道的特点,充分考虑报道的标题和正文这两部分内容,采用双向量对报道的标题和正文分别进行文本表示,充分突出了报道标题的重要性,提高了检测的效率;采用中心向量模型来构建话题模型,当话题内有新的报道加入时,则重新计算话题模型内每个特征的权重,从而动态的调整话题模型,达到了在线实时检测的目的。(3) 提出了一种基于核心词簇的网络热点话题发现算法。本文针对 single-pass 聚类算法存在的不足,在聚类过程中,采用两层聚类策略,首先根据报道的标题向量进行微聚类,及时发现新出现的话题,并将达到预设条件的报道加入到相应话题的候选集中,然后对候选集里的报道进行二次聚类,通过话题热度分析,最终得到网络上某时间段内的热点话题。实验结果表明,本文的方法在识别性能和准确率上均有所提高。(4) 提出了一种基于 LDA 的新闻话题子话题划分方法。本文针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,采用层次话题检测技术,应用 LDA模型对新闻文档进行建模,引入主题特征词相关性分析,并采用 KL 距离和主题间特征词的相关性组合,计算话题之间相似度,实现子话题划分。实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率。综上所述,本文对在线话题检测技术做了深入的探讨,取得了一定的理论成果,并通过实验验证了方法的可行性和有效性。
 参考文献:[1] J. Allan. Topic Decection and Tracking:Event-bansed Information Organization[M]. Boston: KluwerAcademic Publishers, 2002:1241-1253. 李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7-10. J. Allan, J Carbonell, G Doddington. Topic Detection and Tracking Pilot Study: Final Report[A]. In:Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop[C],San Francisco,1998:194-218. J Allan, V Lavrenko. Connell M E. A month to Topic Detection and Tracking in Hindi[J]. In ACMTransactions on Asian Language Processing,2003,2(2):85-100.[5] The 2004 Topic Detection and Tracking (TDT2004). Task Definition and Evaluation Plan [H]. version 1.2,http://www.nist.gov. 陈友,程学旗,杨森.面向网络论坛的突发话题发现[J].中文信息学报,2010,24(3):29-36. 孙胜平,张真继.中文微博客热点话题检测与跟踪技术研究[D].北京交通大学,2011. 何金艳,黄哲学,叶允明. 基于内容分析的 Blog 话题检测方法研究[D].哈尔滨工业大学,2009.[9] 洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. Kumaran G, Allan J. Text classification and named entities for new event detection[A]. In: ACM, ed. Proc.of the SIGIR 2004. New York: Association for Computing Machinery Press,2004:297-304.