> 硕士毕业论文 > 31500字硕士毕业论文基于视觉和文本的新闻视频搜索平台的实现

31500字硕士毕业论文基于视觉和文本的新闻视频搜索平台的实现

论文类型:硕士毕业论文
论文字数:31500字
论点:视频,检索,图像
论文概述:

本文首先从中央网络电视台(CNTV)获取原始的新闻视频数据,经过简单处理后获得完整的新闻联播视频库。通过关键帧分析,提取每段视频的关键帧,建立关键帧库,并识别出新闻联播视频独具特色的

论文正文:

第一章引言

 1.1课题研究的意义和背景近年来,数字媒体技术的高速发展在多媒体信息与数据的应用过程中给人们的生活带来很大的便捷,然而,同时也出现了很多新的急需解决的问题,比如,如何快速查看有用的视频信息即如何快速浏览与检索海量媒体信息就是其中一个重要问题。如今得到广泛使用的检索系统,包括百度、谷歌、搜狗等非常受市场欢迎的信息检索系统,其研发都主要针对纯文本这个单一媒体信息集,即使对图像视频信息检索,目前传统方法仍然采用基于文本检索的技术实现,在目前的系统下检测出来的视频或图像信息经常会与我们实际想要检测的内容毫不相干,原因在于目前系统下,事先对图像或视频信息按照设计好的格式统一进行分类、标识关键词等,然后按照标识的文本信息进行检索,也就是说,我们所检测的不是图像、视频本身,而是人工给它加上去的文本,而现如今的网络资源中音频、图片、视频等多媒体数据急剧增加,继续采用人工标识的话,则工作量过于繁杂,且很不准确,也就不难理解为什么会搜索到毫不相干的视频内容出来。传统的文字标识法不适于图像、视频检索主要表现在以下几方面:①对图像和视频等视觉画面,用文字很难精确有效的解释和传达其实质内容和语意间的关系;②信息加工的标准难以统一,各个集团或公司分别标识加工后的数据库之间不能相互共享,则必然造成重复低效的工作效率;③媒体信息数据量庞大并且视频信息排序没有固定的规律可循,因而必然造成人工加工工作量过大,也决定了没有哪个集团能够对所有视频内容完整的标识加工,必然导致了缺乏有效的新闻视频管理查询方法,最终结果是用户无法有效的实现指定的新闻视频的检索,而基于图像和音频的视频检索能够很好的解决这些问题,因而图像和音频的视频检索技术越来越受到了研究者的关注。图像和音频的视频检索技术在检索原理上完全区别于传统的对图像、视频检索的技术,不再采用文本对图像进行检索,而是直接用视觉画面内容进行对视觉资料信息的查询与检索。如图1-1所示,在视频数据库建立过程中,每输入一幅图片或一段视频时先进行对这段视频或图片的图像画面分析,然后对图片或者画面的特征信息进行分析提取,如媒体信息的颜色、纹理、形状等底层特征,人脸、字幕等高层特征和音频特征等,并且在图像存入用于存储图像的数据库的同时将其图像画面特征信息存储于与之相关联的用于存储特征向量的数据库,而在检索时,系统通过提取输入的视觉画面的图像特征向量并将其与我们建立起来的特征1.2国内外研究现状目前,视频检索系统可以分为两类,一种是传统的基于文本标识的,用文本对视频内容中所涉及的各类信息进行人工标注,然后通过文本匹配完成检索,技术相对比较成熟,但有很多不利因素。另一种是基于内容的视频检索技术并且逐渐成为国际多媒体研究领域的热点,它又可进一步细分为视频结构分析和视频语义分析两大类,视频结构分为视频顿、视频镜头、视频场景及整个视频片段,其中主要研究视频关键顿提取,视频镜头分割,视频场景分割,由于原始的视频画面数据信息是非结构化的,因而检索系统中需要为原始视频建立在结构上合理可行的层次化结构,通过这个层次化的划分用户可以有效地查询视频内容中的所需信息。视频语义分析包括对底层语义特征如颜色、纹理、形状等和高层语义特征如字幕、人脸特征等及音频短时能量等的研究。其中视频的灰度特征、直方图特征等一些底层语义特征的研究开展的较早,得到了较好的发展,而一些高层语义特征,如人脸表情等研究还处于初始研究阶段,因而还不够成熟和深入,离成熟的实际应用系统还有一段发展距离。常见的有以下几种检索系统。
 1.IBM公司的QBIC图像视频检索系统该系统为用户提供了多种检索方式,包括利用标准的示范图像及扫描输入的图像进行检索,输入绘制的草图进行检索,输入动态的影片片段进行检索以及根据视频中的运动对象进行查询等。只要用户对系统输入图片、视频片段或者运动的对象画面,QBIC系统就可以自动抽样分析输入的画面的纹理信息、直方图信息以及对象运动变化信息,并根据用户指令最终完成画面查询。采用基于图像的拼接技术方法表示镜头内容,而摄像机运动对图像的影响则使用2*2的简化仿射矩阵变换来表示,最后使得整个背景图完成无缝拼接。
 第2章新闻视频数据获取及特征介绍
 2.1特征分析分析新闻视频内容的基础是新闻联播视频的特征分析,在新闻联播视频分析技术中始终发挥着重要的作用对最终结果的分析意义巨大。如视觉特征可以用来确定两巾贞的相似性和检测人脸区域范围;音频特征提取关键说话语音;文字的特点是能够定位、识别字幕区域,然后得到新闻节目的关键信息。本节着重分析介绍了几种功能。
 2.1.1视觉特征人类获得的各种形式的信息需要通过自身的感觉器官从外界获得,经眼睛,到大脑,思考后回应。视觉信息是人类最丰富和最重要的信息来源,它具有许多功能,如形象,直观,易于理解和翔实等。研究表明,人类从外界获取信息的过程中,通过视觉获得的信息占约三分之二,听觉约五分之一,味觉,触觉和嗅觉得到的信息通过视听后的剩余信息。上述研究表明,人类的大脑信息的吸收率和记忆持久性方面,视觉信息明显高于听觉,触觉,味觉和嗅觉。虽然有些信息本身并不属于视觉信息,比如作为时间的变化,和某些物理量的空间分布,但是,根据可视化的需要进行可视化的表达和变化,通过传感器和视频设备的方式可以在视觉上感觉到的,如超声图像,遥感图像。此外,随着计算机图形和动画技术的发展,人们开始使用虚拟现实技术可以人为风格各异,丰富多彩的人工合成的视觉信息。第3章关键帧提取......................183.1关键帧技术概述......................183.1.1关键帧提取原则......................183.2关键帧提取方法介绍......................193.3本文采用的关键帧提取方法及实验结果......................20第4章主持人帧字幕帧的识别......................244.1主持人帧的识别......................244.2字幕帧识别......................294.2.1字幕检测提取算法综合分析......................304.2.2基于时间和空间分布特征的字幕提取......................30第5章音频特征检测......................355.1音频特征分析......................355.2静音片段检测......................365.3说话人切换检测......................38
 结论
 随着互联网与多媒体技术的发展,数字视频数量急剧增加,如何从海量的视频数剧中找出自己所关心的视频话题成了用户迫切的需求;如何根据用户感兴趣的视频进行有效的检索也成了目前亟待解决的技术难题。传统的文本检索已经满足不了用户对视频检索的需求,针对这一系列问题,本文提出了针对新闻联播视频的基于视觉和文本的新闻视频检索系统,旨在提高用户视频检索的效率及满足用户不同类型的检索方式的需求。本文首先从中央网络电视台(CNTV)获取原始的新闻视频数据,经过简单处理后获得完整的新闻联播视频库。通过关键帧分析,提取每段视频的关键帧,建立关键帧库,并识别出新闻联播视频独具特色的播音员帧和字幕帧,并对音频流进行分析,检测出静音片段及说话人转换点,综合播音员、字幕、静音片段及说话人切换点对新闻联播视频进行故事分割。最后建立检索系统应用平台,用户可以通过该平台选择新闻联播视频检索的检索方式,包括传统的文本检索、基于颜色的检索、基于NDK的检索、基于时间检索、基于故事内容等。本文研究内容主要包含以下几点:1、根据中国网络电视台(CNTV)提供的新闻联播接口,完成了新闻联播视频原始数据的下载,并对其进行合并等预处理,获得完整的新闻视频数据。数据下载是通过层层解析中国网络电视台的网页代码,获取其中的视频数据url链接,然后通过调用下载工具获取。2、实现了关键帧的识别。基于模板匹配的主持人帧识别算法是根据主持人镜头特殊的空间结构,以及相对静止的时间特性,釆用分块HSV颜色直方图作为模板参数,通过扩展的人脸区域对可能的镜头的代表帧进行模板匹配,识别出主持人帧。基于时空分布特征的字幕帧识别算法是根据字幕在颜色空间、位置空间和时间上都保持不变,通过帧差、二值化处理、背景干扰删除获取字幕区域,通过OCR识别获取完整的字幕文本。3、提出了基于主持人帧、字幕帧、静音片段、说话人切换相结合的新闻联播视频故事分割算法。该算法根据新闻故事单元的特殊特征,以字幕帧为主,将每个新闻故事完全分割开来,并辅以主持人帧、音频信息提高分割点的准确性。4、实现了基于视觉和文本的新闻视频检索。系统后台数据库包括6个月新闻联播视频数据、关键帧图片7万及所对应的图像颜色特征、NDK、故事文本、时间,故事内容等。
 参考文献:[1]O\'Connor N,Czirjek C,Deasy S, et al. News story segmentation in the Fischlar videoindexing system[C]//Image Processing, 2001. Proceedings. 2001 InternationalConference on. IEEE,2001,3: 418-421.Wolf W. Key frame selection by motion analysis[C]//Acoustics,Speech, and SignalProcessing, 1996. ICASSP-96. Conference Proceedings. 1996 IEEE InternationalConference on. IEEE, 1996, 2: 1228-1231.(美)闪萨雷斯(Gonzalea,R.C.)等著;阮秋琦等译.数字图像处理(MATLAB版)[M].北京:电子工业出版社,2005.9.Chen Y? Yu N, Luo B, et al. iLike: Integrating visual and textual features for verticalsearch[C]//Proceedings of the international conference on Multimedia. ACM, 2010:221-230.温超.基于图像的文物检索与本体标注方法研究[D].西北大学2012.齐恒.基于内容图像检索的关键技术研究[D].大连理工大学2012.陆文婷.图像检索中的特征表示模型和多信息源融合方式的研究.北京邮电大学2012.Smith J R, Chang S F. VisualSEEk: a fully automated content-based image querysystem [C]//Proceedings of the fourth ACM international conference on Multimedia.ACM, 1997: 87-98.周明全,耿国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.曹玉东.图像检索中的特征表示和索引方法的研究[D].北京邮电大学2011.