> 硕士毕业论文 > 30000字硕士毕业论文细毛羊遗传数据仓库的构建及其数据挖掘

30000字硕士毕业论文细毛羊遗传数据仓库的构建及其数据挖掘

论文类型:硕士毕业论文
论文字数:30000字
论点:数据仓库,细毛羊,数据挖掘
论文概述:

根据加拿大公司IDC和美国公司Gartnergroup的研究报告表明,数据挖掘(DataMining)技术将在5^-10年内形成继互联网技术之后的应用热潮[fil。业内专家也预测数据挖掘技术将是近期对工业产生深远影响的

论文正文:

  1前言        根据加拿大公司IDC和美国公司Gartnergroup的研究报告表明,数据挖掘(DataMining)技术将在5^-10年内形成继互联网技术之后的应用热潮[fil。业内专家也预测数据挖掘技术将是近期对工业产生深远影响的关键技术之一,并且有专家把数据挖掘技术列为众多热点技术之首。正如预言家奈斯比特(2000年)在《大趋势》中所言,“我们正在被信息所淹没,但是我们由于缺乏知识而感到饥饿”。如今,人类社会的信息每天都在爆发性的增长。尤其是互联网的广泛应用之后,人们对信息的收集、集成和分析都缺乏工具。更多的时候,人们面对巨量信息明白且知道有用,可就是没有办法发现其中的奥妙。比如,人类基因组测序所得到的非编码区序列,目前还不清楚有何功能[(2]。       人们为了摆脱对信息处理的束手无策之尴尬境地,数据挖掘的思想开始酝酿、萌芽。数据挖掘技术从孕育到产生都是以知识发现(KDD,KnowledgeDiscoveryinDatabase)为首要目标。当前,数据挖掘已经形成一门独立的学科,且是以研究海量信息为对象的。自从人类基因组计划(HGP,1990)成功实施以来,世界三大核酸数据库CGenBank,EMBL,DDBJ)的数据每个月都呈几何级增长[。这些海量生物数据的出现是人们始料未及的,也是前所未有的。也可以说,人们在此之前还没有为研究海量信息准备好合适的工具。当前,遗传数据的分析和研究是生物医学领域的主要任务之一。可是,能够把历史数据集成研究的方法非常有限,大多数的分析研究是作局部的统计分析。特别是,动物遗传育种研究领域,中国内地还鲜有公开报道利用资源参考家系研究动物遗传育种。如今在发达国家,家畜育种方面已经作了较深入的研究,就本研究的绵羊来讲,就有如下颇具代表的研究机构:(1)澳大利亚CSIRO用Booroola母羊与Romney公羊杂交组建的家系。(2)新西兰的国际绵羊基因组作图资源参考群(AgResearchIMF)o(3)美国的USDAMARCesARS资源参考群体均主要用来构建高分辨率遗传连锁图。(4)法国INR.A研究中心的INRA401多品种杂交资源参考家系,则主要用于进行与羊毛性能有关的QTL检测。      英国罗斯林研究所(Roslin)用Suffolk和Texel公羊后裔构建SRS-QTL(Sirereferencingschemes)半同胞资源参考群,主要用来研究商业化群体中QTL遗传规律。凉山半细毛羊父系半同胞资源参考家系的绵羊QTL定位研究已经持续进行了多年,并且已取得较丰硕的成果[[s]。到目前为止,凉山半细毛羊的13个父系半同胞家系中,已经对1,2,3,9号染色体作了体重性状和羊毛性状的QTL定位研究[f6l。本研究尝试构建一套信息管理和信息分析系统,用来为遗传育种工作提供决策支持。2决策信息管理系统的发展现状和趋势2.1从ERP到BI的实现企业资源规划,即ERP(EnterpriseResourcesPlanning)是为企业构建的应用和事务处理系统闭。随着市场竞争的加剧,该信息系统不能满足仅仅用计算机日复一日的运营数据了。他们更需要的是从这些信息中得到有用的知识或信息,以便提高辅助决策的能力。为了适应和满足以上的需求,在20世纪80年代中后期,商业决策支持系统(DSS,DecisionSupportSystem)开始向商业智能(BI,BusinessIntelligence)方向转变[fgl。在全球化竞争日益激烈的经济环境下,企业的生存发展,关键在于它是否能够对各种不同的用户需求做出快速的反应和正确的决策,并提供优质的产品及服务。商业智能(BI,BusinessIntelligence)系统是指运用数据仓库,联机分析和数据挖掘技术来处理和分析商业数据。针对不同的领域提供不同的应用解决方案,协助用户解决商务活动中的复杂问题,从而帮助决策者面对商务环境的快速变化而做出敏捷反应和合理决策的管理系统[。    此时数据仓库((DW,DataWarehouse)的思想开始萌芽,并且为数据仓库概念最终的提出和成熟打下了基础。商业智能阶段的主要特征是模型技术、专家系统、数据仓库和数据挖掘技术全方位的有机集成,这样注定决策支持技术无论在体系结构上还是在信息处理能力上都有质的进步。2.1.1ERP发展概况ERP是建立在有效的应用企业的各种资源来提高整个企业的效率基础之上的。ERP概念的正式提出是在1990年,美国GartnerGroup公司在当时流行的工业企业管理软件MRPII(ManufactureResourcePlanningII)的基础上,提出了评估  参考文献:[1』刘飞.中国商业智能与数据仓库市场2007-2011年预测与分析〔A].IDC研究报告〔C],2007.赵国屏.生物信息学【M].科学出版社,2003.[3]毛国君,段立娟等.数据挖掘原理与算法【M].清华大学出版社..2005:30-63 .[4]张成岗,贺福初.生物信息学方法与实践[M].科学出版社.2002.吴登俊.培育凉山半细毛羊的启示[[J].草食家畜,2003,(4):21-26.李辉.凉山半细毛羊 QTL定位初步研究〔博士论文〕.四川农业大学,2006.利昂.企业资源规划:管理、技术、应用〔M].清华大学出版社.2002.于宗民,刘义宁.数据仓库项目管理实践[M].人民邮电出版社,2006.[9]WH.Inmon, R.H.Terdman. Data Warehousingfor E-Business[M].China Machine Press.2004.[ 10]华莱士.企业资源规划:成功指南〔M].上海交通大学出版社.2003 .刁柏青..ERP项目实施中的管理问题fM].山东大学出版社.2004:12-34.倪虹雨.商务智能动态2007-2008[A].Gartner Corp.研究报告[C].2007.3.Inmon,W H. Building Data Warehouse, Second Edition John Wiley (2003).[ 14]王克宏.电子商务软件技术教程四].清华大学出版社.2004.雷博特,杰沃斯基.电子商务[M].北京大学出版社.2004:1-37.[ 16]国际数据仓库研究http://idwa.org叶舟,王东.基于规则引擎的数据清洗[[J].计算机工程.Vo132 No.23 P52.数据仓库网http://data-warehouse.com知识发现和数据挖掘http://www.kdnuggets.com[20』飞思科技.SQL Server 2000 OLAP服务设计与应用四].电子工业出版社.2002.Hyperion. BI技术白皮书[A].IBM商业使用手册[C].2005 .康博创作室.SQL Server 2000数据仓库设计和使用指南四」清华大学出版社(2001).[23〕刘义,李亮.基于关系数据库构造多维数据模型闭.计算机工程..2000.9:P21-23.Han ,J.w. and Kamber, Mick. Data Mining: Concepts and techniques[M].China Machine Press.2001.[25]Jeffrey D.UIlman Jennifer Wisdom.  A First Course in Database System[M].ChinaPress. 2003.[26]Claude Seidman. SQL Server 2000数据挖掘技术指南[M]机械工业出版社2002.   摘要 4-5 Abstract 5-6 第一部分 文献综述 9-25     1 前言 9-10     2 决策信息管理系统的发展现状和趋势 10-24         2.1 从ERP到BI的实现 10-11             2.1.1 ERP发展概况 10-11             2.1.2 ERP同EDI的整合 11             2.1.3 在ERP中加强数据仓库和联机分析处理功能 11         2.2 商业智能研究和应用现状 11-15             2.2.1 商业智能的组成、特点和架构 13-14             2.2.2 多维数据模型的技术特征 14-15         2.3 商务智能系统与其他商业决策系统的区别 15-16         2.4 从事务操作环境到分析操作环境的转变 16-19             2.4.1 事务操作数据库与数据仓库的区别 16-17             2.4.2 事务数据库与OLAP的关系 17-18             2.4.3 数据仓库的概念、特征及其应用 18-19         2.5 从知识发现到知识挖掘的跨越 19-24             2.5.1 知识发现催生的数据挖掘 19-20             2.5.2 数据挖掘的方法 20-21             2.5.3 数据挖掘的实施流程 21-23             2.5.4 数据挖掘在生物医学研究中的应用 23             2.5.5 数据挖掘在遗传数据上的作为 23-24     3 本研究的目的和意义 24-25 第二部分 材料和方法 25-42     1 资料来源 25-26         1.1 系谱资料 25         1.2 生产性能资料 25         1.3 遗传信息资料 25-26         1.4 凉山半细毛羊遗传育种数据仓库的开发环境和平台 26     2 凉山半细毛羊遗传育种数据仓库的设计 26-29         2.1 数据仓库的需求分析 26-27             2.1.1 数据仓库的设计策略 26-27             2.1.2 数据仓库的需求分析 27         2.2 数据仓库概念模型和逻辑模型设计 27-29             2.2.1 界定系统的边界 27-28             2.2.2 确定主题域 28             2.2.3 数据粒度(DataGranularity)层次划分 28             2.2.4 确定数据分割策略 28-29             2.2.5 关系模式定义 29             2.2.6 数据仓库的运行和维护 29     3 凉山半细毛羊遗传育种数据仓库的实现 29-42         3.1 数据仓库的逻辑模型结构 29-30         3.2 数据仓库系统的总体架构 30         3.3 数据预处理 30-31         3.4 数据仓库的ETL规则实施 31-32         3.5 数据仓库的实施与生成 32-40             3.5.1 核心数据集市的设计 32             3.5.2 系谱数据集市的设计 32-35             3.5.3 体重数据集市的设计 35-37             3.5.4 羊毛性状数据集市的设计 37-39             3.5.5 凉山半细毛羊数据集市生成 39-40         3.6 数据仓库的使用维护、分析挖掘和育种应用 40-42             3.6.1 数据仓库的使用和维护 40-41             3.6.2 遗传育种数据的分析挖掘和育种应用 41-42