> 硕士毕业论文 > 35860字硕士毕业论文维吾尔语统计语言模型中原语建模研究

35860字硕士毕业论文维吾尔语统计语言模型中原语建模研究

论文类型:硕士毕业论文
论文字数:35860字
论点:维吾尔,模型,语言
论文概述:

本文主要是基于维吾尔语的一种统计模型的研究与实现,具体是对基于N-gram 的统计语言模型和主要的平滑算法技术进行了研究,所以进行了多种方法的应用、验证与对比。

论文正文:

第一章是关于情绪

1.1研究背景
语言在自然语言处理中起着重要作用。统计语言模型通过概率分布将概率分配给字符串。语言模型通常用于一些自然语言处理应用,如语音识别、机器翻译、词性标注、句法分析和信息检索。因为单词和句子的组合长度是任意的,所以没有出现在训练好的语言模型中的字符串(稀疏数据)也将使得很难估计字符串在语料库中的概率。目前,维吾尔语模型的研究还处于初步探索阶段,因此为维吾尔语自然语言处理系统建立一个可靠的语言模型非常重要。建模就是建立模型,这是研究系统的重要手段和前提。任何通过模型描述系统因果关系或相互关系的过程都属于建模。原语是指局部区域形成特征序列以适应元素间相互组合(或重合)的基本结构单位。本文中,模型原语是指利用模型找出语素之间的共性,提高大词汇量连续语音识别系统的识别率。近年来,作为维吾尔语自然语言处理中最重要的技术之一,维吾尔语模型得到了广泛的应用,自然语言信息处理(如维吾尔语语音合成、语音识别等)。)以维吾尔语为主要语言的少数民族语言越来越受到重视。经过几十年的发展,统计语言模型[的相关理论已经相对成熟。早在上个世纪80年代,当研究连续语音识别时,
2.1维吾尔语介绍
目前,维吾尔语在中国新疆维吾尔自治区及其周边国家和地区广泛使用。具体分布范围如图2-1中深灰色和黑色部分所示。维吾尔语有三种方言:中央方言、和田方言和罗布方言,其中标准语以中央方言为基础,伊犁-乌鲁木齐语音为标准音。维吾尔文字有32个字母,包括8个元音和24个辅音。根据单词的开头、中间和结尾的位置,每个字母的书写方式不同,共有126种书写形式,32个字母。维吾尔语的构词和构形是通过词干连接不同的词尾来实现的,词干可以连续连接。丰富的形态变化是维吾尔语的特征之一,维吾尔语也具有非常自由的词序。词序是由语义变化决定的,而不是严格的语法规则。例如,下列句子包含相同的单词,这些单词在语法规则上是正确的,但在语义上有些不同。形态变化非常丰富。戴尔研究了世界上各种语言形态学的复杂性(见下图)。维吾尔语和土耳其语都是阿尔泰语系的突厥语。他们彼此非常亲近。如图所示,它们都是形态丰富的语言。,弗雷德·杰利内克教授提出了统计语音识别的框架结构。迄今为止,语音识别一直被认为是一个人工智能问题和一个模式匹配问题。弗雷德·杰利内克(Fred Jelinek)将其抽象为一个交流问题,并使用两个隐马尔可夫模型(即声学模型和语言模型)来唯一而彻底地描述语音识别过程。
近年来,随着语音识别、机器翻译和信息检索等自然语言处理技术的发展,越来越多的人开始研究统计语言模型。统计语言模型是使用分布函数和概率函数的模型。它是用数学概率中的统计方法来表示自然语言中短语、句子、单词和短语之间的关系和性质的一种方法。从目前国内外的研究现状来看,声学模型发展相对成熟,而语言模型仍有很大的发展空间空。语言模型的出现是在计算机飞速发展的背景下,面临着自然语言被计算机自动识别的问题。用计算机解决这个问题是人们梦想使人和计算机相互作用的第一步,这个目的进一步刺激了计算机的发展,使得越来越多的学者研究它,希望能解决这个问题。计算语言学由此诞生,它是自然语言信息处理的一门学科。计算语言学详细描述自然语言,总结语言本身的内在规律,然后发展成为众所周知的语言模型的核心。然而,最初提出的语言模型是基于规则的语言模型。虽然这个模型给了人们一个启示和方法,但是它的可靠性和准确性并不能满足人们在现实中的要求,尤其是对大量词语的识别不能满足人们的期望。在这种情况下,基于统计的语言模型的出现在一定程度上解决了上述问题。任何语言都有大量的词汇。此外,句子的数量和句法的复杂性都是建立统计语言模型的难点。然而,当一个标准和准确的语言模型被提出时,它对于语音识别系统的识别是非常重要的。因此,可靠的语言模型对提高大词汇量连续语音识别系统的识别率起着至关重要的作用。

1.2主题的含义
新疆维吾尔自治区是一个多民族地区,维吾尔族人口占总民族人口的60%。使用维吾尔语和文字,其中维吾尔语有32个字母,24个辅音字母和8个元音字母。由于字母的位置不同,它们有几种不同的形式,如前、后、中间和分开的形式。因此,计算了32个字母,并根据情况使用了126种不同的书写方法。此外,哈萨克斯坦、乌兹别克斯坦、吉尔吉斯斯坦和其他国家也有用户。近年来,新疆经济和文化发展迅速,新疆少数民族学习和使用计算机和网络也发展迅速。互联网上以维吾尔语的形式出现了大量的文化交流信息。特别是中亚维吾尔语国家与新疆维吾尔人有着密切的文化和经济交流,并从这些数据信息中提取有用的信息。这对中国经济、政治和文化的快速健康发展大有裨益。因此,以维吾尔语为主的少数民族语言的自然语言信息处理(如维吾尔语语音合成和维吾尔语语音识别[8))越来越受到重视。尽管近年来在英语和汉语等语料库资源丰富的语言中,语音识别和机器翻译等自然语言处理技术的研究发展迅速成熟。语音识别中的语言模型
参考
[1]易昆昆,高世杰维吾尔语语法北京:中央民族大学出版社。1998.
[2]王小龙,关彝,等.计算机自然语言处理[M]。北京:清华大学出版社。2005.
[3]宗成庆。统计自然语言处理[。北京:清华大学出版社,2008。
[4]黄长宁。统计语言模型能做什么?[·杰]。《语言和文字的应用》,2002 (1): 77-84。
[5]弗雷德里克·耶利内克。引用该论文[。IEEE游行,1976。64(4): p532-556
[6]韩记青,章雷,郑铁然。语音信号处理[。北京:清华大学出版社。2004
[7]斯坦利·陈.约书亚·古德曼。对语言建模平滑技术的实证研究[。《计算机语言与语言》,1999,13(4): p359-393。
[8]彭魏翔。基于隐马尔可夫模型的维吾尔语连续语音识别研究。北京:中国科学院研究生院,2010。
[9]罗纳德·罗斯菲尔德。[·杰]。在IEEE会议录,2000,88 (8): 1270-1278。[/比尔/] [10]邢永康,马邵平。统计语言模型综述[。计算机科学,2003,30(9):22-26。是自然语言的数学模型,它主要描述自然语言统计和结构的内在规律。它可以分为两类:一类是基于语言知识语法的常规语言模型,另一类是统计语言模型。统计语言模型[10]利用概率统计揭示语言单位的内在统计规律,其中N-Gram简单有效,应用广泛。语言模型的性能通常用交叉熵和困惑度来衡量。交叉熵的含义是用这种模型进行文本识别的困难,或者从压缩的角度来看,每个单词平均需要用几个比特编码。复杂性的含义是用模型来表示本文的平均分枝数,它的倒数可以看作是每个单词的平均概率。平滑是指为未观察到的n元素组合分配一个概率值,以确保单词序列总是能够通过语言模型获得一个概率值。常用的平滑技术包括良好图灵平滑算法、卡茨平滑算法、线性插值平滑算法、威滕-贝尔平滑算法和克内塞-尼平滑算法。起初,统计语言模型只适用于语音识别问题。然而,随着统计自然语言处理的不断发展,基于概率论的统计理论已经不断渗透到自然语言处理的各个应用领域。机器翻译、信息检索、文本挖掘等研究方向也开始采用统计语言模型。它们的发展程度和应用方法因各自的领域和特点而异。其中的具体应用方法如图1-1所示。

第二章维吾尔语语音形态学概述

[5]

第三章统计语言模型和算法的分析与研究......20
3.1统计语言模型概述......20
3.1.1统计语言模型的起源........20
3.1.2统计语言模型的应用前沿......21
3.1.3统计语言模型的测量指标......22
3.2基于多元语法的统计语言模型.........23
3.3平滑算法....24
3.4本章摘要....33
第四章维吾尔语模式改进分析........34
4.1传统的基于单词的语言模型...35
4.2具有不同模型粒度的改进语言模型...36
4.2.1基于语素的维吾尔语模型...36
4.2.2基于音节的维吾尔语模型...39
4.3本章摘要...40
第五章语料库处理与实验分析........41
5.1文集........41
5.2语料库处理........43
5.2.1实验工具简介........43
5.2.2预处理........44
5.3 N字字符串提取.......46
5.4分词.......47
5.5统计语言模型构建.......52
5.6不同语言模式的相关实验.......53
5.7本章摘要.......59

结论

介绍了统计语言模型的研究历史和现状,论述了研究维吾尔语模型的意义,研究了基于N-gram的统计语言模型和主要平滑算法技术。具体工作如下:
1)详细讨论了语言模型的相关理论和技术。首先,介绍了统计语言模型,给出了统计语言模型的评价标准。然后,详细描述了基于词的N-gram模型的基本原理和存在的主要问题。其次,研究了解决维吾尔语统计语言模型建立过程中数据稀疏问题的几种经典平滑算法。最后,对这些数据平滑技术进行了比较和总结。
2)本文围绕维吾尔语的语音和形态特征介绍了维吾尔语的特点,并从音韵学的角度研究了维吾尔语的语法规则。在此基础上,研究了三种不同粒度的维吾尔语模型,即基于词的维吾尔语模型、基于语素的维吾尔语模型和基于音节的维吾尔语模型,并比较了它们的优缺点。
3)构建维吾尔语统计语言模型时语言材料的收集、选择和处理。同时,研究了一种优化语言材料选择的方法,并介绍了两种维吾尔语分词方法。在将训练语料分割成语素的基础上,建立了基于语素的维吾尔语模型。此外,还使用不同的平滑算法进行对比实验,以测试几种语言模型在减少混淆方面的效果。

[9]