> 博士毕业论文 > 103290字博士毕业论文开放域命名实体识别和层次类别获取

103290字博士毕业论文开放域命名实体识别和层次类别获取

论文类型:博士毕业论文
论文字数:103290字
论点:语料,实体,命名
论文概述:

本文是博士学位论文,针对汉语命名实体识别因语料不足而导致的领域过拟合问题,本文提出了一种基于双语平行语料的命名实体语料自动构建方法。本文将英语命名实体的标注信息映射到汉语

论文正文:

第一章引言

基于机器学习的方法对特征选择有更高的要求。有必要选择影响命名实体识别任务的各种特征,并将这些特征组合成向量来表示文本中的单词。命名实体的内部组成和外部语言环境可用作[32–34]的显著特征。例如,人名中的姓氏更集中。地名和组织名称有一些常见的后缀,如“* *城市”和“* *公司”。地名也经常与动词连用,如“at”和“reach”。根据特征类型的分类,命名实体识别常用的特征包括词特征、词性特征、词典特征等。Cho等人(2013年)提取了百科知识库中实体的上下文,以形成一个全球词汇,帮助识别生物领域的命名实体,[35]。此外,还有研究人员在研究特征选择。埃克巴尔和萨哈(2013)将多目标模拟退火算法与命名实体特征选择和分类相结合,[36]。有向机器学习方法的主要不足是数据稀疏问题,即训练数据不足。常见现象频繁发生,统计方法有效。然而,对于许多不寻常的长尾现象,仅在有限的标注语料库中显示其规律性是不够的,机器学习方法往往不能很好地处理。因此研究人员设计使用平滑技术来处理稀疏数据的问题,但是稀疏数据总是机器学习的一个挑战。机器学习方法相对于规则方法的一个改进在于它的可移植性。理论上,相同的模型可以应用于任何领域的命名实体识别任务,而无需任何修改。然而,实践证明,这种迁移不能保证识别效果。例如,Ciaramita和Altun(2005)的研究发现,在由CONLL 2003评估的路透社新闻语料库上训练的模型在同一路透社语料库上可以达到0.908的F值,但是在《华尔街日报》语料库上,F值骤降至0.643[37]。
……

第2章基于双语平行语料库的中文命名实体训练语料库的自动构建

2.1引言
虽然已经提出了许多用于半监督或无监督机器学习的方法,但是其目的是使用少量标记样本和大规模未标记数据来训练命名实体识别模型。[43]也取得了良好的效果,但本文从另一个角度解决了上述问题,并采用自动生成大规模语料库的方法来提高中文命名实体识别模型的性能。由于中文缺乏案例信息以及中文分词带来的错误,中文命名实体识别比英文命名实体识别困难得多。现有的英文命名实体识别系统普遍优于中文系统。幸运的是,大量机器翻译任务中常用的双语平行语料库提供了从英文命名实体到中文命名实体的桥梁。通过单词的对齐,英文命名实体的信息(包括边界和类型)可以被映射到中文以标记中文命名实体。本文利用现有的英文命名实体识别系统和并行语料库自动生成大规模中文命名实体识别语料库。

2.2相关工作
安等人(2003)[100]和怀特劳等人(2008)[101]使用搜索引擎检索网络文本资源以生成命名实体识别训练语料库。他们使用一些种子实体在搜索引擎中搜索以获得包含这些实体的句子。使用这些句子直接作为训练语料库来构建一个韩国命名实体语料库,在此基础上训练的模型获得了与人工标注语料库相似的结果。Whitelaw使用这些句子和信息(例如网页的超文本标记语言结构)来获得模板,然后使用模板来提取更广泛的命名实体训练示例。这种方法的缺点是种子集的构建也更加劳动密集和材料密集。Richman和Schone (2008) [102],诺斯曼等人(2008,2013) [103,104]和Ling和Weld(2012)[14]使用类似的方法从维基百科生成命名实体识别语料库。他们首先对维基百科上的文章进行分类,比如人名、地名、组织和其他。然后利用文章之间的链接关系对锚文本进行标注,从而获得命名实体训练语料库。然而,在对文章进行分类时,还需要人工提前构建一些种子。

第3章确定..........................................40
3.1导言.........................................40
基于自主学习的开放领域命名实体边界3.2相关工作……41
第4章获取.............................................57
4.1导言.........................................57
基于多信息源开放域命名实体类别4.2相关工作..............................58
4.2.1基于模式匹配的方法……58
第5章等级制..............................75基于词汇分布表示的开放领域命名实体类别
5.1简介.............................................75
5.2相关工作.........................................76
5.2.1语义层次相关工作……76
[/ Br/]第5章基于词汇分布的开放领域命名实体的层次分类

5.1引言
然而,通过进一步观察,我们发现上下关系比简单向量之间的差异更复杂。因此,我们使用一个映射矩阵来描述上下位置关系,也就是说,一个词乘以这个映射矩阵的分布表示近似等于它的上位置词的分布表示。此外,我们可以通过分段映射矩阵更好地描述不同的高位和低位关系。接下来,我们使用这些映射来判断给定的词对是否符合下位词关系。据我们所知,这是词汇分布表征首次应用于上下义关系的判断。我们手动构建了一个评价集进行实验比较,包括418个中国开放领域命名实体及其层次关系。据我们所知,这也是第一个汉语上位词的层级关系语料库。我们的方法在该评价集中达到73.74% F1值,明显优于其他方法。此外,我们的方法和苏哈内克等人(2008)的方法[58]是非常互补的。通过结合这两种方法,F1值可以进一步提高到80.29%。

5.2相关工作
基于模式匹配的方法不直接生成分层语义系统,而是提取上下关系对,然后可以将其组合成分层系统[64,72]。前一章还提到,基于人工模式的方法只能覆盖一小部分复杂多样的语言现象,导致召回率较低。基于模板自动生成的方法对句法分析和语料库质量要求较高,实际应用不理想。另一种方法是基于单词的相似性。它们是基于一个假设,即一个较高单词的上下文比其较低单词的上下文更宽。严格来说,后者是[79,81(详见第4.2.2小节)的适当子集
……

结论

有鉴于此,本文基于多种信息源,模拟人类行为,在互联网上搜索和挖掘命名实体的类别,取得了良好的效果。此外,我们还挖掘了类别之间的语义上、下层次关系,并构建了命名实体知识库。具体而言,本文的主要研究内容和成果可以总结如下:首先,针对中文命名实体识别中语料库不足导致的领域过度拟合问题,提出了一种基于双语平行语料库的命名实体语料库自动构建方法。以双语平行语料库中的词对齐为桥梁,将英文命名实体的标注信息映射为中文,通过各种策略选择高质量的句子,形成中文命名实体训练语料库。其次,针对中文仍然缺乏开放领域命名实体边界识别训练语料库的挑战,提出了一种基于自学习的边界识别模型训练方法。由于其他语言没有成熟的识别开放领域命名实体边界的工具,上述基于双语平行语料库的方法不能直接用于构建识别中文开放领域命名实体边界的训练语料库。通过分析开放领域命名实体的特点,我们发现开放领域命名实体包括专有名词和名词复合短语两种形式,因此训练语料库的这两部分可以分别构建。
……

参考文献(省略)