> 硕士毕业论文 > 58400字硕士毕业论文《知网》多关键词检测分析

58400字硕士毕业论文《知网》多关键词检测分析

论文类型:硕士毕业论文
论文字数:58400字
论点:搜索引擎,语义,关键词
论文概述:

网络已经成为一个全球最大的信息库,人们也越来越享受信息共享带来的好处,但是随着信息的口益爆炸式增长,人们享受信息共享的同时也出现了想要找到准确的信息难的问题。搜索引擎技

论文正文:

简介

1.1主题的目的和意义

1.1.1搜索引擎的重要性
目前,随着互联网网络的快速发展和存储设备价格的不断下降,网络上的信息以爆炸式的速度增长,网络已经成为世界上取之不尽的信息资源库。其信息内容涵盖广泛领域,包括文化艺术、科技教育、商业、工农业生产、娱乐休闲等。人们也越来越依赖于在网上搜索有用的信息,信息检索逐渐成为我们上网的主要目的之一。2007年中国互联网络信息中心搜索引擎市场调查报告显示,搜索频率的变化将在很大程度上显示互联网用户在网络生活中对搜索的依赖程度。调查总体样本中44.71%的用户经常使用搜索(每天多次),17.2%的用户每天使用一次搜索,这意味着60%以上的用户每天都在搜索互联网。
在互联网发展的早期,网站相对较少,更容易找到信息。然而,目前互联网上的信息检索系统正经历着从“数量积累阶段”到“质量细化阶段”的转变。有大量的网络信息和大量的信息垃圾。获得准确的信息并不容易。如何为用户提供优质、适量的检索结果已经成为信息检索技术的发展方向之一。搜索引擎作为网络信息搜索的主要工具,以一定的策略在互联网上收集和发现信息,理解、提取、组织和处理信息,为用户提供检索服务。在某种程度上,搜索引擎为人们找到他们需要的准确信息提供了便利。

1.1.2当前搜索引擎中存在的问题
虽然搜索引擎为人们检索信息提供了极大的便利,但目前搜索引擎仍然存在以下不足:
①大多数搜索引擎索引仅包含世界上所有网页的一小部分,CNNIC调查结果也表明了这一点。我国同时使用两个或两个以上搜索引擎的用户数量占用户总数的76.3%,这表明当大多数用户使用搜索引擎时,单个搜索引擎无法满足他们所有的需求,用户还需要选择一个或多个其他搜索引擎来实现他们的搜索目的,这就需要一个具有统一人机界面的搜索引擎(即维吾尔族搜索引擎), 从而整合各个搜索引擎的信息,避免人们花费大量时间选择不同的搜索引擎逐一查询。
②面对“数据丰富、信息贫乏”的问题,搜索引擎往往采用基于十个关键词的搜索技术。虽然这可以缓解在处理单个关键词时“难以找到信息”的问题,但是不可避免的是,只有内容被匹配为字符串而不检查语义关系,这导致结果信息包含大量不相关信息的尴尬。这种检索结果的数量远远超过了用户的吸收和使用能力,让人感到无助。这也是现在经常谈论的“信息过载”和“信息过载”现象。然而,当面对多个关键字时,这种技术尤其成问题。首先,这十个字符串仅由十个基本字符串匹配,因此位于后面的查询关键字可能会被忽略。此外,即使多个关键词匹配,十个关键词也不深入它们的语义关系,并且考虑每个关键词的权重,从而导致检索结果与用户意图不一致,并且列出大量不相关的搜索结果。
因此,如何更好地理解关键词信息,改进搜索关键词,并进行语义关联,已经成为新一代智能中文搜索引擎系统需要解决的核心问题。成功的智能搜索引擎的基础和核心技术在十大知识库中。良好的知识库结构以及知识库10的语义和关系处理直接影响智能搜索引擎的成功。因此,如何选择知识库和知识库的认知研究已经成为智能搜索引擎技术的重中之重。
知网”是一个面向计算机的双语知识库。它为语义研究和大规模语义词典或大规模知识库建设提出了新思路。它侧重于反映概念的共性和个性,以及概念与其属性之间的各种关系。因此,《知网》是计算机的智能组件。在《知网》的基础上,如果能建立合理的结构,研究其各种语义关系、词语关联等,并提供识别多关键词语义关系和自动设置权重的功能,知网在智能信息处理方面将会有很大优势,可以进一步了解用户的实际查询需求,使搜索结果更接近用户的预期目标。
针对上述问题,提出了一种基于KIX的多关键词感知模型,用于计算多关键词的语义关系,设置不同关键词的权重,最终提高搜索结果的准确性和质量,满足用户的实际需求。本课题的研究对于信息检索向自然语言处理的发展具有一定的科学意义和研究价值。

1.2本文的组织结构

本文的组织结构如下:
第一章介绍了本研究的背景和意义。
第二章分析了搜索引擎的发展历史和现状,重点介绍了智能搜索引擎和维吾尔族搜索引擎的概念、原理、分类和进展。
第二章简要介绍了《知网》的基本概念、组织结构、基本思想和概念描述,并讨论了一些现有的语义计算,包括语义相似度和词语相似度。
第4章给出了基于10个知网的多关键词感知模型。在该模型中,提出了一种新的消歧方法。初步解决了《知网》中复合词(未知词)的语义表示,并重点给出了多关键词基十语义关系的层次权重思想。基于十种不同的语义关系,提出了这些关系中的核心关键词,并给出了核心关键词的一级权重。

2.4智能元搜索……21-23
3知网简介……23-35
3.1知网提案……23-24
3.2知网结构……24-26[/ Br/] 3.3《知网指南》……26-29
3.4知网描述……29-31
3.4.1知网知识……29
3.4.2知网描述……29-31
3.5基于知网的语义……31-35
3.5.1语义基本相似度……31-33
3.5.2类似于……33-35
4知道……35-53
4.1……35
4.2多关键词分析……35-37
4.3最佳学期代表……37-44
4.3.1基于《知网》的现有网站……37-39
4.3.2基于知网的歧义消除……39-44
4.4多关键词语义关系……44-49
4.4.1多关键字……44-45
4.4.2……45-47
4.4.3……47-49
4.5多关键词复合词……49-53
4.5.1分解复合词……49-50 [/BR/] 4.5.2复合词语义……50-53

结论
网络已经成为世界上最大的信息库,人们越来越享受到信息共享的好处。然而,随着信息的爆炸式增长,人们享受着信息共享的同时,也很难找到准确的信息。作为人们获取信息的工具,搜索引擎技术可以缓解这个问题,但是面对多个关键词,传统的搜索引擎有些薄弱,较低的精度直接影响信息检索的质量,增加检索成本。人们迫切需要一种能够处理多个关键词的信息工具来提高信息的准确性。本文主要对多关键词检索进行了分析和研究,从理论上提出了一种基于基础知识网络的多关键词检索模型。
本文的主要工作可以概括如下:
①分析了传统搜索引擎和维吾尔族搜索引擎的发展和现状。针对搜索引擎的不足,提出了多关键词搜索的重要性,即多关键词搜索是向自然语言搜索的过渡。此外,作者对《知网》系统进行了深入研究,认为从《知网》的组织结构和基本思想出发,将其作为多关键词分析的知识库是可行的。