> 博士毕业论文 > 120409字博士毕业论文基于上下文的音视频标注研究

120409字博士毕业论文基于上下文的音视频标注研究

论文类型:博士毕业论文
论文字数:120409字
论点:语义,上下文,关联
论文概述:

本文是博士生论文,本文以音视频内容不同表现形式中所隐含的上下文信息为出发点,重点针对语义特征层的语义关联上下文、视频结构信息隐含的时间关联上下文、低层特征中的多模态关联上

论文正文:

1简介

面对如此大量多样的多媒体数据,如何充分挖掘和利用它们是一个亟待解决的问题。音视频内容分析,即对不同层次的合理描述,如低层特征、结构信息、语义特征等。多媒体数据(如音频和视频)所代表的听觉或视觉内容,为它奠定了基础。其中,低级特征(例如色调、颜色、纹理等)。)直接给出音频和视频数据的基本属性,但不能代表用户对事物的语义认知。音频和视频标记,通过从低级特征到高级语义的映射来建立语义信息索引(例如,关键词序列、语义概念等)。)用于某些结构单元(例如,音频剪辑、视频镜头等)。),有效地弥补了这一局限,为人们管理多媒体数据的存储、传输、检索、过滤等提供了方便。,已广泛应用于教育、安全、娱乐等地方。,目前是一个热门的研究课题。鉴于音视频标签的重要性和人们对其发展的迫切需求,国内外一些科研机构和公司对其进行了多方面的研究。其中,国际上有著名的研究机构,如哥伦比亚大学、南洋理工大学、新加坡国立大学、微软亚洲研究院、柯达研究实验室等。在中国,中国科学院计算研究所、香港城市大学、清华大学、中国科技大学、浙江大学、复旦大学、北京交通大学等机构也进行了深入研究。
......

2基于语义关联上下文的音频标注

2.1引言
考虑到如上所述由音频语义特征层所体现的两种语义关联上下文,本文分别侧重于多标签音频概念检测和关键词检测两个方面。一方面,以基于概念关联的上下文为出发点,提出了一个相关主题的高斯混合模型。在高斯混合模型框架下,通过概念关联实现了更精确的音频概念检测。另一方面,从语音产生的语境背景出发,提出了一种基于主题信息反馈的关键词检测算法。该算法以关键词检测为出发点,尝试用文本主题来模拟人脑高级信息,并将其与语音本身的关键词检测结果结合为高级语义上下文,从而更准确地描述语音数据的主要内容。

2.2基于关联主题高斯混合模型的音频概念检测
这一第一类正则项实际上是通过在图上添加相似性约束来基于流形假设的,这建立了这样一种关系,即图上的相邻点通常具有相似的条件概率分布,从而试图通过使用数据本身的结构特征来更好地实现模型建模和学习。由于机器学习给出的研究对象通常满足“分布或接近欧洲空”的低维流形假设,基于图的流形正则化在实际研究中得到广泛应用,包括直接将其作为目标函数,利用标记和未标记数据之间的相似性实现标记信息的传递,以及基于语义相似性和视觉相似性限制图像主题在图上的分布,实现半监督图像标记。作者通过构建社交网络进行主题分析,有效提高了学习成绩。基于这一思想,从概念分布的内部几何结构出发,基于图构造流形正则项,并将其加载到主题混合高斯模型的目标函数上,从而得到一个能够反映流形内部结构,即概念相关性特征的关联主题混合高斯模型。

3基于概念关联估计的视频标注优化……47
3.1导言.........47
3.2问题描述和分析........48
4基于时间关联上下文的视频标注........71
4.1导言....71
4.2相关模型.......72
5基于多模态相关上下文的视频标注......99
5.1导言......99
5.2多模态连续概率潜在语义分析……100

5基于多模态相关上下文的视频标注

5.1简介
针对这种视频的多模态上下文,提出了基于连续概率潜在语义分析的多模态连续概率潜在语义分析,并将其应用于上述基于分类的视频标注,间接实现音视频信息融合。当文档元素由多模态连续特征表示时,多模态模型实际上提供了一种潜在的语义分析方法。在此基础上,将多模态融合问题转化为该多模态单元的建模问题。此外,考虑到第四章讨论的元素关联问题,本文进一步扩展了多模态连续概率潜在语义分析模型,描述了多模态元素和元素之间的关联,并将图归一化多模态连续概率潜在语义分析模型应用于基于分类的视频标注,实现了包括多模态和时间一致性在内的视频上下文特征的同时建模。

5.2多模态连续概率潜在语义分析
根据4.2.1节概率潜在语义分析模型的介绍,可以看出,随着潜在语义空的引入,概率潜在语义分析最终将描述最初由具有少量潜在主题的多个词表示的文档,这实际上可以作为多模态融合方法使用。然而,由于其离散性,仍然存在特征量化导致信息丢失等问题。尽管所提出的连续概率潜在语义分析将模型的应用范围扩展到连续特征的范围空,但基于连续模型的多模态融合方法尚未得到讨论。为了解决这一问题,提出了一种基于连续特征空的多模态连续概率潜在语义分析模型,将多模态融合转化为多模态元素的建模问题,即“从多种模态描述具有连续特征的同一文档元素”,并将其应用于基于音视频融合的视频分类,如图所示。
......

6摘要和展望

随着计算机和网络技术的飞速发展,越来越多的音频和视频等多媒体数据正涌入人们的日常生活。如何将这些数据表达的内容转化为人们容易理解的文本描述,是信息存储、传播和交流的核心。音频和视频标记是实现这一目标的有效方法。本文从不同形式的音视频内容中隐含的上下文信息出发,重点探索和研究语义特征层中的语义关联上下文、视频结构信息中隐含的时间关联上下文、底层特征中多模态关联上下文的挖掘、建模和利用,以提高音视频内容标签的性能。本文的主要研究成果和创新点如下:针对现有音频标注中语义关联上下文使用不足的问题,提出了一种基于关联主题混合高斯模型的音频概念检测算法,并对基于主题信息反馈的关键词检测进行了探索。不同于大多数音频标注研究对学习算法本身的关注,本文利用语义特征层隐含的语义关联上下文来提高标注性能。首先,对于面向通用音频的多标签音频概念检测,常用的两类分类器集成方法忽略了概念之间的依赖关系。鉴于此,本文提出了一种与主题相关的高斯混合模型。在高斯混合模型框架下,语义概念之间的上下文关联通过图形建模,嵌入模型参数估计过程中。自然,通过易于检测的概念来加强难以检测的概念的检测,并且其性能明显优于传统的检测方法。
……

参考文献(省略)