> 硕士毕业论文 > 30255字硕士毕业论文汉语词典编纂大型通用语料库建设研究

30255字硕士毕业论文汉语词典编纂大型通用语料库建设研究

论文类型:硕士毕业论文
论文字数:30255字
论点:语料库,语料,辞书
论文概述:

本文是语言学论文,笔者认为我国在面向辞书编纂语料库建设这个领域还是相对比较薄弱,并且所做的尝试也是非常有限的,要想理想而又相对比较成功的建设我们自己的面向辞书编纂语料库

论文正文:

第一章引言1.1语料库建设的研究现状1.1.1中国语料库建设的研究现状中国语料库的发展呈现出多元化趋势,特别是在过去十年中,不同类型的语料库发展迅速,包括普通语料库和特殊语料库、文本语料库和语音语料库、古今汉语语料库、书面语料库和口语语料库、共时语料库和历时语料库以及中介语语料库 近十年语料库发展的主要内容是普通语料库和特殊语料库的发展 在通用语料库中,影响最大、应用最广的是国家语委现代汉语语料库、北京大学现代汉语语料库和北京大学现代汉语标记语料库。中国大陆、香港和台湾的汉语语料库在台湾海峡两岸三地也发挥着重要作用。 1996年,刘连元在《现代汉语语料库的发展》一书中详细介绍了现代汉语语料库的建设 2004年,金广金、肖航、丽芙和张云帆也在《现代汉语语料库的建设与深度加工》中介绍了国家语委建立的现代汉语语料库的建设,强调从深度加工的角度进行分析和解释。 国家语委《现代汉语语料库》建立于2001年初,是一个大型的全国平衡语料库,语料库跨度近100年,数据库总容量为1亿字。 语料库包括三个广泛的领域:人文社会科学、自然科学和综合,在这些领域下划分了40个子类别,涉及许多实际领域,如行政、礼仪和文件。 2002年,俞石闻、段慧明、朱学峰和孙斌在《北京大学现代汉语语料库基本处理标准》中对北京大学现代汉语语料库的建设进行了一定程度的解释 2009年下半年,该库的总容量超过7亿字节。 它主要从口语和书面语的角度进行划分,还包括历史传记、应用文、报纸、电影、戏剧等。 语料库也可以在互联网上自由共享,其检索方法也便于用户掌握与语料库来源相关的信息。 本文描述的语料库规模是一个拥有2700万汉字的现代汉语语料库,在基本处理过程中形成了一定的标准。本文详细介绍了语料库的处理项目:分词和词性标注、专有名词标注(人名、地名、组织机构名等)。)、语素子类标注、动词和形容词的特殊用法标注等。 2000年,段慧明、余石闻等人的《大规模汉语标注语料库的开发与使用》从语言资源、制作汉语标注语料库的必要性、大规模汉语标注语料库的制作、基于标注语料库的汉语分词系统、实验、准确度的提高以及标注语料库的应用等七个方面对语料库的构建与使用进行了简明的阐述。 1.2研究的意义和价值1.2.1 空怀特(White to Fill the Theory of Chinese dictionary)从我国现有词典理论的角度来看,一些现有的词典理论建设研究取得了很大进展,但从微观角度来看,这些理论大多是在引进国外先进理论的基础上进行的,有些研究是基于“模仿”和“追踪”的性质。然而,在这些理论引入后,我们不能结合我国词典的实际发展,对其进行整合、消化和创新,提出自己的原创性研究,建立一套适合我国词典编纂的现代原创性理论。 用观念来演绎当代词典的发展,在一定程度上,一套系统的理论或观念支持将对词典的发展起到至关重要的作用。 当今世界的发展已经进入信息时代,语言作为一种非常重要的资源必将影响我们生活的方方面面。 为了进一步提高中国文化软实力的发展,我们不断加大对语言资源的开发和利用。 然而,汉语词典的编纂不仅可以遵循传统词典理论的规则和规定,还可以引入更多新的现代词典概念,使词典编纂成为开发和利用语言资源的重要途径。 建立大型通用词典编纂语料库可以使汉语词典编纂进一步吸收和借鉴国外先进的词典编纂理念和各种语言学理论。 在构建语料库的过程中,我们不仅可以更好地理解这些理论,还可以成功地将这些理论应用到实践中,并用它们来检验它们是否符合我国词典建设的实际情况。 从某种意义上说,本研究弥补了传统词典理论的不足,为词典编纂提供了新的理论支持,努力实现词典编纂的现代化。 因此,建立大规模的汉语词典编纂通用语料库可以促进汉语词典的理论建设,填补空汉语词典理论的空白,不断为汉语词典的编纂开辟新的领域。 1.2.2为促进中文信息处理的发展,中文信息处理主要是指利用计算机技术处理中文字形、读音和意义等信息。 换句话说,就是让计算机知道汉语,然后更好地记录汉语的发展。 中文信息处理主要有两种方法:统计方法和理解方法 在语料库统计的基础上,我们试图使计算机加深对汉语的理解,最终过渡到基于理解的方法,使计算机的信息处理方法逐渐从经验方法转向理性方法。 通过对标注信息和语料库标注方法的不断深入研究,我们可以更好地理解汉语和理解汉语。 在计算机技术飞速发展的今天,为了更好地利用计算机技术来理解、处理和生成自然语言,首先要做的是使计算机能够正确理解和分析自然语言。 这也促进了中国信息处理的发展 中文语料库的建设,即计算机辅助词典的编写,是中文信息处理的重要组成部分。 在建立语料库的过程中,从最初的语料库收集到最终的语料库信息标注处理都有一定的标准。语料库采集的样本是标准的,语料库的框架结构、编码要求和处理工具也是统一的标准。 从汉字信息的输入到输出,从汉字信息的检索和提取,到汉字信息的转换,这些都是语料库在中文信息处理过程中带来的影响。 大型通用语料库的成功建立,必将使中文信息能够按照统一的标准进行完整的解码和分析,计算机对自然语言的理解也将更加科学、全面和客观,这对促进中文信息的发展也将起到非常重要的作用。 通过使用统一的标准来标记各种信息,规范计算机语言的使用,可以更好地促进中文信息处理的发展。 第二章汉语词典编纂大型通用语料库的设计理念 语料库具有科学合理的设计理念,可以使语料库更好地为用户服务。 语料库诞生的背景是从宏观角度解释语料库产生的最初原因,然后从微观角度阐述几个典型大型语料库的设计理念,最后借鉴先进经验,结合我国实际,提出汉语词典编纂大型通用语料库的设计理念。 2.1语料库诞生的大背景语料库是一些文本的集合,但不同的语料库是设计者根据不同的需求收集的具有不同语言特征的语料库。 为了收集一些早期语料库中的常用词和高频词,所选语料库主要来自各种来源和各个领域的私人或公函,最大程度地反映了当时高频词和常用词的使用情况。 当然,也有一些早期的语料库是为研究语言频率而设计和开发的。他们遵循语言发展的规律,从语音到词汇和语法逐渐发展进步。 早期的电子语料库在词典编纂领域影响很大,主要是为外国学习者设计的英语教学。 根据学习对象的不同,这一领域的教学也可以细分为二语教学和外语教学。 英语教学主要针对母语不是英语但生活在英语区的英语学习者。然而,英语教学主要是针对母语不是英语并且生活在非英语国家的英语学习者。 在二语习得领域,迈克尔·韦斯特(Michael West)、哈罗德·帕尔默(Harold E.Palmer)和奥尔比(A.S.Hornby)在20世纪30年代进行的语料库研究中对此产生了开创性的影响,并且至今对词典编纂者的研究活动产生了深刻的影响。 最早的英语词典出现在日本 也是在20世纪30年代,霍恩比的研究成为当时东京英语教学研究所的核心任务。他们对“词汇控制/词汇控制”的研究对学习词典产生了深远的影响。 后来,在英语专家的共同努力下,《国际词汇选择报告》于1936年正式出版。这是一部学术影响力很大的语言学著作,比桑代克等人早期的词汇研究更加复杂和深刻。 它将语法功能和语义研究纳入研究范围,如比较同一词在不同词类下的语义用法等。在这种相似语义研究的推动下,也带来了语义频率统计的研究。在前一份报告中引入这一概念后,它被扩展为“英语单词的一般服务列表”(General Services List of English Words),该列表不仅根据语义划分意义项,而且还指示每个意义的相对使用频率。 虽然收集的词汇数量有限,对词典编纂的影响有限,但作为一种定向研究模式,它对词典语料库的改进和发展起到了不可估量的作用。 还有一本关于语法的原著,是查尔斯·弗里斯的《英语结构:英语句子结构导论》。 他几年前就对一些字母的语法有了最初的研究成果,这本书就成功地形成了 这本书使用电话录音和对话录音的分析结果来解释英语语法。 弗里斯利用他的研究表明,书面英语中有4000到5000个常用词,占整个书面语言的95%。大约1000个单词是最常用的,占所有书面单词的85%。 这已经证明,常用词对语言研究、教材、词典编纂等都有重要意义。 他还发现,在所有的书面语中,有50个高频功能词,约占60%;在1000个最常用的单词中,名词占40% 这些重要的研究成果对词典和教科书的编纂起到了重要的指导作用,使研究者能够将编纂的重点从生僻词转移到常用词和高频词。 2.2代表性语料库框架网(FrameNet)的设计概念是由美国伯克利大学的菲尔莫开发的词典项目。 它以格语法和框架语义学理论为基础。 同时,它还有一个假设前提,即语言单元的语言结构可以显示语义框架的一些内容。正因为如此,词语的意义和功能才能得到正确的解释,而词语底部的语义框架和对某些特征的描述则是连接语言单位结构和词语意义和功能的桥梁。 词典学家和相关语言学家根据语义框架从大规模文本语料库中抽取例句。通过对这些模式的系统分析,他们进一步描述了这些词的语义框架,并以机器阅读的形式对框架的相关知识点进行编码。最后,程序员实现了他们在计算机中的应用。 在大型外语教材建设之初,强调语言教材之间的平衡设计,语言教材的分类标准和各类语言教材的比例都制定了相应的平衡结构方案。 为了实现语料库的平衡设计理念,必须合理安排语料库中各类语料库的比例。 同时,应该注意的是,各类语言材料的比例应与其在现实生活中的影响力比例相一致。 为了使语料库达到平衡的要求,首先必须建立语料库的平衡因素,即影响语料库分类的各种因素。 例如,用户的风格、年龄、年龄和性别,以及语言材料的使用等 根据我们的相关调查,许多外国公司确实很好地考虑了这一方面。一般来说,他们在语言资源来源、学科分布、体裁和时间观念等方面都有一定的平衡设计,并考虑了各种平衡因素。 在确定语料库的比例后,国外大型语料库也考虑语料库内容的选择标准。经过充分考虑后,他们一般选择发行量大、发型多样、在读者中畅销、与时代生活密切相关的语料库。 约翰·辛克莱(John Sinclair)主持的COBUILD语料库有一个主要特点:为了满足普通共时词典编纂的需要,这个语料库与其他大型语料库相结合,被称为“监控语料库/监控语料库”。他们以开放的形式监控一段时间内的语言变化。 这样,动态元素被添加到语料库中。 我们使用软件分析来识别和发现新单词,发现单词的新用法,并以某种方式将新文本添加到语料库中。 辛克莱还对这类语料库和“样本语料库/样本语料库”进行了一系列比较,以证明监控语料库的优势和科学性。 样本语料库的假设是,如果语料库足够大并且收集的语料库足够宽,那么它的样本大小不需要足够大。 然而,在后来的词典编纂过程中,人们发现情况并非如此。 样本太少将不可避免地导致一些单词和短语的频率太低,这将不能为词典编纂者提供足够的例证支持。 这种比较从另一个角度证明了监控语料库具有以往无可比拟的优势。 第三章汉语词典编纂的大型通用语料库文集183.1年代表性语料库文集..............................183.1.1 COBUILD语料库的语料库收集................的语料库收集................................18第四章汉语词典编纂的大型通用语料库的语料库处理:的处理..............................314.1原始语料库;的存储格式……314.2语料库;..............................31第五章汉语词典编纂大型通用语料库的功能……...................415.1行政职能...........................................41第五章大型通用语料库对汉语词典编纂的作用 这样,所有的信息都可以系统地输入到语料库中,不仅可以大大提高资源的利用率,而且方便访问者使用。 从文本、图形信息、实例等与词典主要内容相关的方面来看,文本文件应该具有入库、导入、导出、转换、浏览和查询的功能。同时,它还应具有编辑、剪切、添加和删除语料库的功能。最后,在存储阶段,它应该具有保存、复制、更新、测试等功能。 与传统的词典编纂方法相比,语料库方法不仅大大提高了效率,而且使信息输入更加全面,便于管理。 语料库信息的科学管理在词典的生成中起着至关重要的作用,无论大型汉语词典通用语料库的规模或通用性如何。 第六章结论在撰写论文的过程中,我深刻认识到自己语言知识的缺乏和相关领域知识的缺乏。语料库的建设不是很令人满意。 由于个人学术水平有限,在研究能力和研究方法上还存在许多不足,语料库建设也存在一些局限性。 本文还有很多需要改进和提高的地方,特别是在语料库的进一步处理中,应该从更多的角度对语料库进行分析和处理,以便语料库中能够反映更多的信息。此外,一些标准只是泛泛而谈,而许多规则没有得到详细阐述和深入研究。 等等,这些内容需要在今后的研究中进一步完善。 参考文献(省略)