> 硕士毕业论文 > 72000字硕士毕业论文时间空数据库中文地名歧义识别系统的规划与实现

72000字硕士毕业论文时间空数据库中文地名歧义识别系统的规划与实现

论文类型:硕士毕业论文
论文字数:72000字
论点:数据,系统,文本
论文概述:

本文以Bas二层架构作为系统的架构形式,基十时空数据库及地名数据,通过中文分词、地名识别、地名解析、网络爬虫、数据本地化、数据库自定义维护等一系列算法和功能模块,构建了一个

论文正文:

第一章总结了

本章主要介绍了数据挖掘、文本挖掘、时态空数据和词汇歧义的概念。结合当前社会进步和科技发展的趋势,提出了分析时态空数据库中歧义地名以消除歧义的必要性和重要价值。然后提出现阶段国内外相关研究方向的研究成果中存在的缺陷和问题,进而提出解决汉语地名词汇歧义问题的现实意义和创新点,从而给出解决这一问题的思路和方法。最后,介绍了论文其余部分的组织结构。

1.1选题的背景和意义

随着科学技术的飞速发展和社会的不断进步,计算机、移动终端等产品的应用已经普及到各行各业的成千上万个家庭。在这些海量应用中,数据是承载其功能的最基本、最有用和最重要的内容。数据不仅可以在用户面前直接展示这些应用程序处理后获得的信息,还可以通过直接或间接获得的数据挖掘出它们背后越来越有价值的信息和内容。特别是在计算机网络得到广泛应用、社会计算及其相关应用迅速发展的今天,数据的存储、传输和使用如井喷甚至爆发般迅速增长是不争的事实。如果这些数据没有被过滤、分析和重新提取以获得有效的内容,当用户试图通过某些方法(例如使用搜索引擎或在基地10的位置使用服务)获得有用的信息时,他们会发现这些有用的信息经常淹没在大量无用的噪声数据中(象征性地说,用户被困在“信息海洋”中),这是难以快速找到和提取的。此外,为了向用户提供可靠和高质量的服务,这些应用程序(尤其是基于十个WEB服务的应用程序)还将面临一些相关问题,如如何维护数据的有效性、可用性和及时更新。因此,研究这一领域的数据,对数据进行高效的收集、过滤、分析和处理,凸显其重大意义和价值。
数据挖掘是上述一系列工作的统称。数据挖掘也被称为数据库中的知识发现(KDD)。它是指通过一定的算法和方法提取和分析指定数据库中潜在的重要数据,提取有用的信息及其对应的规律,然后获得其背后有用的联系和知识的技术。这些算法、方法和信息通过用户定义的模式进行传输,整个数据挖掘过程可以通过用户对它们的影响进行迭代和交互。数据挖掘技术广泛应用于信息管理、查询处理、决策和过程控制等许多不同领域。因此,在当今信息和数据爆炸式增长的今天,数据挖掘技术必将承担越来越重要和深远的工作。
目前,由于大部分数据都是以文本的形式存储和使用的,文本挖掘一直是数据挖掘领域专家学者关注的焦点。文本挖掘通常是指从非结构化数据文档中提取用户感兴趣的知识的过程。它依靠十种自然语言工具(如tagger)来定位和获取十进制文本引用中的相关信息,并通过处理文本(添加属性、去除噪声等)来生成结构化数据。),以便输出更准确的(与上下文相关的、新的知识等)。)结果。通过对文本进行分类和预测,我们可以发现文本背后更多的含义,并为用户提供高质量的信息。简而言之,如果我们考虑文档集的输入和输出模式,那么文本挖掘的过程就是文档集从输入到输出的映射。文本挖掘技术广泛应用于学术研究、产品营销、信息安全、生物医学等十个领域。根据权威调查报告统计,80%以上的公司信息是通过文本存储的。然而,文本的非结构化、模糊性等特点使其挖掘过程变得复杂。像数据挖掘一样,文本挖掘也是一项涉及许多学科和领域(包括信息提取、文本分析、数据恢复、数据聚类等)的技术。)。

第三章提出的方法是……23-33
3.1地名识别程序……23-25
3.2地名解析程序……25-29
3.2.1本地查询实现……26-28 [/BR/] 3.2.2网络查询实现……28-29[/比尔/] 3.3其他职能……29-32 [/BR/] 3.3.1……29-30
3.3.2……30-32
3.4本章概述……32-33
第四章系统地分析了……33-44
4.1系统,……33-35
4.1.1系统的原创性……33
4.1.2系统实用性……33-34 [/BR/] 4.1.3系统可行性……34-35 [/BR/] 4.2系统需求分析……35-40 [/BR/] 4.2.1系统设计……35 [/BR/] 4.2.2系统业务要求……35-36 [/BR/] 4.2.3系统用例图……36-37 [/BR/] 4.2.4系统类图……37-38 [/BR/] 4.2.5系统数据流……38-40 [/BR/] 4.3系统主要用例分析……40-43 [/BR/] 4.3.1本地查询的实施40-41
4.3.2互联网查询在……,中国41-43
4.4本章总结……43-44
第五章建筑设计……44-50
5.1系统架构原则……44-45
5.2系统总体设计……45
5.3系统数据库……45-48
5.4系统功能设计……48-49 [/BR/] 5.5本章概述……49-50

摘要
在本文中,巴斯两层架构被用作系统架构形式。基于10: 00 空数据库和地名数据,通过中文分词、地名识别、地名分析、网络爬虫、数据本地化、数据库定制维护等一系列算法和功能模块。构建了一个完整有效的网络系统来分析和消除汉语城市词汇的歧义。作者介绍的地理信息模糊性分析与判别研究旨在提出一个很好的解决方案,提高空之间数据的预处理质量,为用户正确理解相关信息和空之间的下一步数据挖掘工作提供高质量的数据保证。实现的系统严格按照文中描述的算法和功能点进行设计和构建。返回的结果符合理论值和实际情况,满足设计要求。
在完成全文的过程中,我做了大量的工作。具体概述如下:
1。在设计系统之前,我对中文文本的挖掘和处理、空[/k0/]之间的数据特征进行了充分的了解、研究和探讨