当前位置: > 硕士毕业论文 > 30000字硕士毕业论文基于AMR的音频质量提升算法探讨

30000字硕士毕业论文基于AMR的音频质量提升算法探讨

论文类型:硕士毕业论文
论文字数:30000字
论点:语音,算法,噪声
论文概述:

AMR(自适应多速率语音编码,AdaptiveMulti-Rate)是3GPP制定的应用于WCDMA系统的语音压缩编码[}]aAMR支持八种不同速率的语音编码模式和一种背景噪声编码模式,它可以根据当前无线信道和传输状况自适

论文正文:

  1绪论        AMR(自适应多速率语音编码,AdaptiveMulti-Rate)是3GPP制定的应用于WCDMA系统的语音压缩编码[}]aAMR支持八种不同速率的语音编码模式和一种背景噪声编码模式,它可以根据当前无线信道和传输状况自适应地选择最佳的编码模式,也就是说,实际的语音编码速率取决于信道条件,是信道质量的函数,在传输环境较差时选择最健壮的编码模式,而在传输环境较好时则选择能够提供最佳语音质量的编码模式,这样就可以更加合理地分配信源编码和信道编码的比特数量,更加灵活和高效地利用宝贵的无线资源。AMR属于码激励线性预测(CELP-CodeExcitedLinearPrediction)编码,并且引入了变速率编码技术。变速率编码相关技术主要包括(        2]:区别语音和噪声的语音激活检测技术(VAD),用来补偿丢帧和错帧的差错隐藏技术((ECU)和用来在解码端生成与编码端类似的背景噪声的舒适背景噪声生成技术(CNG)o语音激活检测技术根据人们日常谈话的语音和静默特性,检测到静音时加以抑制,使其不占用或少占用信道资源,检测到语音时才将其进行压缩编码并传输,VAD技术使信道带宽的利用率提高了大约50%以上,成为通信传输中降低带宽的有效手段,同时VAD检测的准确性对合成语音的可懂度和自然度有着至关重要的影响[[        3]0AMR的VAD技术在较高信噪比条件下有很高的准确率,但是该算法在门限设定、基音检测和子带能量计算等方面存在不足,在低信噪比环境下,噪声经常被错判为语音,造成VAD检测性能下降。为此,本文提出了一种基于短时能量,残差信号自相关和LSF参数的VAD算法,分别从合成语音特征,语音激励特征,语音声道模型特征三个方面进行VAD判决,实验证明,该算法在低信噪比环境下具有更好的检测性能。同时,本文提出了一种新的基于MFCC和分形维数的VAD算法,该算法对400帧左右的短序列进行检测时表现出良好性能,但是参数更新方法尚不成熟,导致对较长序列进行检测时性能明显下降,如果能找到一种好的参数更新算法,MFCC和分形维数特征将能获得更好的检测性能。由于无线信道和网络传输的不稳定性,丢帧情况时有发生,从而影响接收端的解码质量。丢帧隐藏机制用于隐藏丢失或错误的语音帧,尽可能地减弱甚至消除由于丢帧造成的消极影响。        AMR编码属于参数编码,相邻帧之间存在较大联系,因此AMR采用基于接收端的丢帧隐藏技术,但是AMR的丢帧隐藏技术在第一语音帧和声道模型参数、基音周期参数的恢复方面存在缺陷,使得解码质量受到严重影响。针对这些缺陷,本文提出了新的第一语音帧构建方法和声道模型参数、基音周期参数的恢复方法,该方法弥补了AMR丢帧隐藏技术的不足,获得了更高的解码质量〔们。语音激活检测概述通信设备经常工作于较低信噪比的环境中,其中的噪声大多是非平稳噪声,这些噪声源可能是汽车噪声、工厂噪声、背景谈话等,所以复杂背景噪声下VAD算法的鲁棒性就显得尤为重要[[51。国家十五计划难点之一,就包含不同噪声环境下的VAD技术。大部分VAD算法在高信噪比环境下可以达到比较好的检测效果,但是一旦处于强背景噪声环境下,尤其是在对抗多种噪声的情况下,性能就会下降。目前,VAD主要有两个研究方向:一个方向是寻找更具普遍性的,可以区分语音与噪声的特征参量,另一个方向是综合利用多个特征参量得到最终结果。前者需要生理学、心理学、数学、数字信号处理等各个领域知识的融合,后者则需要多个特征参数的有效结合以及门限的准确设定。       1.2丢帧隐藏机制概述如今高速的包交换网络得到了越来越广泛的应用,包交换网络设计的一个研究重点就是在网络传输出现差错时,拥塞控制方式的设计。当网络发生拥塞时,包被放置在交换节点的队列中延迟传输,长时间的延迟则会导致网络服务质量变坏,特别是对于强实时性的语音通信来说更是如此。缓解网络拥塞的一个最简单直接的办法就是在发生拥塞时将传输包丢弃,这样就造成接收端发生丢帧,另一方面,由于无线信道的时变性以及多径传输和衰落,语音信号在传输过程中可能出现差错,影响接收端的解码语音质量[0通常丢帧隐藏技术分为基于发送端和基于接收端两种。       基于发送端的丢帧隐藏技术主要是指,在前续或者后续帧中加载相邻帧的部分编码码流或者全部编码码流,在帧丢失情况下,可以利用相邻帧的冗余信息来恢复部分或者全部丢失信息。基于发送端的丢帧隐藏技术的优点是解码质量高,算法复杂度低,但是同时也增加了传输比特率,加重了系统负担。基于接收端的丢帧隐藏技术并不需要在编码端和信道进行额外的处理,它们利用丢失数据包和它之前或者之后正确接收到的数据包之间的相关性来恢复丢失数据,当然如果利用后续数据包会引入额外的处理时延,但是可以进一步提高恢复质量。基于接收端的丢帧隐藏技术的优点是不改变编码端结构,不增加编码比特率,缺点是算法复杂度较大,而且与基于发送端的丢帧隐藏技术相比,解码质量会有所下降【7]01.3本文的内容和组织本文针对AMR的VAD算法在门限设定、基音检测和子带能量计算等方面的不足,研究并实现了两种新的VAD算法,提高了低信噪比条件下VAD的准确性,同时针对AMR的丢帧隐藏技术在第一语音帧和声道模型参数、基音周期参数的恢复方面的不足,本文参考文献[1] 3GPP TS 26.090 V8.0.0  AMR speech codec transcoding functions [S].2009-01【幻王炳锡,王洪.变速率语音编码【D4].西安:西安电子科技大学出版社,2004.[3」果永振,何遵文一种多特征语音端点检测算法及实现叮〕.通信技术,2003. 1, 133 (1) :8-10. Tanyer S. G, Ozer H. Voice activity detection in nonstationary noise [J]. IEEETransactions on Speech and Audio Processing. 2000, 8(4):478-482.郭莉,殷南,王炳锡.语音业务中鲁棒性VAD算法分析「J].语音技术,2001, 09:41-45.[6〕彭波.Internet上语音的鲁棒性传输研究〔D].广州:华南理工大学,2001.[7〕杜勇,徐盛,潘良.因特网中分组语音传输的丢包恢复技术浅述【J].天津通信技术,2004, 0321-24. Freeman D K, Cosier G, Southcott C $, et al. The voice activity detector for thePan-European digital cellularmobile telephone service [C].1989 International Conference on Acoustics, Speech, and Signal [9]马静霞.带噪语音端点检测方法的研究[D].河北:燕山大学电气工程学院,2006.[lo〕张仁志,崔慧娟.基于短时能量的语音端点检测算法研究〔J].语音技术,2005, 07:52-59.[11」胡大雷,刘晰.高噪声环境下的语音活动检测技术〔J].中国农业大学学报,2005, 10 (3) : 65-68.[12] Wu B F, Wang K C. Robust endpoint detection algorithm based on the adaptiveband-partitioning spectral entropy in adverse environments [J].IEEE Transactions on[13〕李哗,张仁智,崔惠娟等.低信噪比下基于谱嫡的语音端点检测算法【J].清华大学学报,2005 45 (10):1397-1400.摘要 4-5 Abstract 5 1 绪论 9-12     1.1 语音激活检测概述 10     1.2 丢帧隐藏机制概述 10     1.3 本文的内容和组织 10-12 2 典型语音激活检测方法介绍 12-22     2.1 VAD方法概述 12     2.2 经典的门限判别类VAD算法介绍 12-15         2.2.1 短时能量 12-13         2.2.2 短时过零率 13-14         2.2.3 短时自相关函数 14-15         2.2.4 基于FFT谱熵的VAD 15     2.3 典型模型匹配类VAD算法介绍 15-16         2.3.1 高斯混合模型法(GMM) 15-16         2.3.2 高阶统计方法 16     2.4 AMR语音激活检测技术 16-21         2.4.1 子带划分 17-18         2.4.2 基音检测 18-19         2.4.3 基调检测 19         2.4.4 复杂信号检测 19-20         2.4.5 背景噪声估计 20         2.4.6 VAD判决 20-21     2.5 本章小结 21-22 3 两种新的语音激活检测方法 22-40     3.1 AMR语音激活检测算法的不足 22-24     3.2 基于短时能量、自相关与LSF的VAD算法 24-35         3.2.1 基于短时能量的语音检测 24-26         3.2.2 短时能量语音检测评价 26         3.2.3 短时能量、自相关与LSF的VAD实现 26-33         3.2.4 VAD算法检测准确性评价 33-34         3.2.5 VAD算法时间性能评价 34-35         3.2.6 VAD算法缺点总结 35     3.3 基于MFCC和分形维数的VAD算法 35-40         3.3.1 Mel倒谱系数介绍 35-36         3.3.2 MFCC的计算 36         3.3.3 分形基本知识 36         3.3.4 分形维数的计算 36-38         3.3.5 基于MFCC和分形维数的VAD实现 38         3.3.6 基于MFCC和分形维数的VAD性能评阶 38-39         3.3.7 基于MFCC和分形维数的VAD总结 39-40 4 丢帧隐藏机制ECU方法介绍 40-45     4.1 丢帧隐藏简介 40     4.2 常用的丢帧隐藏技术 40-41         4.2.1 插入技术 40-41         4.2.2 插值技术 41         4.2.3 重建技术 41     4.3 AMR丢帧隐藏技术 41-45         4.3.1 错误检测 41-42         4.3.2 丢帧隐藏 42-45 5 AMR丢帧隐藏算法改进 45-54     5.1 第一语音帧改进方案 45-47         5.1.1 AMR第一语音帧丢帧隐藏方法缺陷 45-46         5.1.2 AMR第一语音帧丢帧隐藏方法改进 46-47     5.2 第一语音帧改进方案客观评价 47-49         5.2.1 语音评价方法简介 47-49