当前位置: > 硕士毕业论文 > 38400字硕士毕业论文不同数据结构中基因组关系的分析

38400字硕士毕业论文不同数据结构中基因组关系的分析

论文类型:硕士毕业论文
论文字数:38400字
论点:关联,群体,分析
论文概述:

本文中提出的检验统计量与Shuanglin 2hang等人提出的检验统计量SAT进行了比较.模拟结果表明本文中提出的相似性的检验在候选疾病位点的频率在四个群体中是不同的情况下,功效较SAT有所提高,

论文正文:

第一章简介

1.1背景简介

随着国际人类基因组计划的国际人类基因组测序CONSOR-TITUS)的完成,已经确定了数千个遗传标记位点。如此大量的遗传标记位点提供了绘制疾病基因图的可能性。连锁分析是指对一些基因数据进行分析,以找到一些感兴趣基因的位置,也称为基因作图。连锁分析广泛用于单基因遗传病致病基因的定位,具有明显的主基因效应。然而,它受到遗传、环境和其他相互作用、外生性和现象复制等十个因素的影响。连锁分析很难在复杂疾病的基因定位研究中发挥理想的作用。在这种情况下,联动研究的方法受到了更多的关注。连锁分析是研究疾病和人群中特定等位基因频率之间的相关性。连锁不平衡是人口的性质,连锁不平衡的程度可以从人口数据中推断出来。连锁不平衡是一个与连锁相关的重要遗传概念。连锁只与两个位点有关,而连锁不平衡与两个位点等位基因的概率有关。简而言之,如果两个位点上的两个等位基因不独立出现,那么它们就处于十个连锁不平衡的状态。可以定义连锁不平衡参数。b>0表示两个等位基因l4和b之间的连锁不平衡。假设d。对于连锁不平衡参数的初始代,b是两个位点的重组率,而n代的连锁不平衡参数是
当b小时,收敛到零的速度慢,而当b接近0.5时,收敛到零的速度非常快。(1-1)是相关性分析的理论基础。标记位点基因型和表型之间的统计相关性通常被认为是标记位点和疾病位点之间联系的证据。
10组数据的相关分析方法主要包括皮尔逊检验和阿米蒂奇趋势检验。然而,相关性分析也有一定的局限性,会受到混杂因素的干扰。在疾病和候选疾病位点的关联分析中,如果它们的关联是由第二因素引起的,并且客观地说,第二因素与疾病和候选疾病位点都相关联,那么流行病学将第二因素称为混淆因素矩阵。在许多混杂因素中,一个重要因素是人口分层现象。10个标准病例对照的相关检验的一个主要限制是由10个群体分层的存在引起的假相关。当不同组中疾病位点的频率不同时,可能患病的样本来自某一组,因此由于10个病例和不相关对照之间的种族或区域差异,在10个候选疾病位点和疾病之间产生了错误的相关性。例如,在两组中,基因座1的等位基因频率分别为p1和pZ,基因座2的等位基因频率分别为。无论这两个基因座是否关联,关联分析的自由度都是群体中等位基因方差和协方差的函数,并且还与来自每个群体的样本比例相关,因此关联分析的结果可能有偏差。
为了减少人口分层对关联分析的干扰,经常使用它来增加样本量。尽可能选择具有相似遗传背景的群体。然而,即使如此,可能的人口分层现象的干扰也不能完全消除。因此,一些研究者采用了基于10个家族数据的研究策略,即选择基于核心家族的数据进行相关性分析。该方法有效地解决了上述问题,但同时也带来了一些新的问题,如统计效率低。为此,近年来,已经开发了一些新的方法来校正关联分析的结果,例如在病例对照试验中选择一系列相互独立的遗传标记位点进行同时分型,从而使用这些数据来推断是否存在群体分层,然后执行关联分析。

1.2十种复杂疾病关联分析研究现状

基因定位。疾病与候选疾病位点之间的关联分析已经成为一种重要的方法,并得到了广泛的应用。然而,由于十个未被认识的群体结构、遗传背景等因素的影响,关联分析产生了错误的结论。有许多方法来处理与人口分层的相关性分析。主要有两种方法:与基层10个家庭数据的相关分析和与基层10个家庭数据的病例对照实验。一些研究人员更喜欢使用与基础10个家庭数据的相关性分析。在这种设计中,病例组和对照的种族背景必须匹配。因此,没有必要使用额外的标记位点来消除人口分层的影响。例如斯皮尔曼等人提出的传播不平衡测试(TDT),该方法以家庭成员为对照,通过研究标记位点从杂交亲本到患病后代的传播速率,比较传播和非传播之间的差异,只需要收集一些核心家庭数据。每个这样的家庭只有一个生病的孩子和他们的父母。如果核心家庭数据更容易收集,这种方法更适用。熊博士等人提出的霍特林TZ检验和霍特林TZ检验比较了受影响组和正常组之间基因得分的平均值,以及DV.2aykin等人提出的连锁不平衡检验,该方法比较了受影响组和正常组之间基因得分的方差协方差矩阵。此外,对于十个基本家系的数据,杨还有其他相关分析方法。

第二章初步知识.........11-15
2.1遗传概念.........11-13
2.2基于人口.........13-15
第三章关联分析方法.........15-24
3.1基因组控制...15-19
3.1.1病例对照试验.........15-16
3.1.2病例对照试验.........16-18
3.1.3气相色谱法.........18-19
3.2结构化协会.......19-22 [/BR/] 3.2.1样品不存在.........19-21 [/BR/] 3.2.2存在样本.........21-22 [/BR/] 3.3本章摘要.........22-24
第4章判断一对个体为.........25-26
4.2基于相似性.........24-31
4.1基于相似性.........26-28
4.3模拟测试.........28
4.4实验结果.........28-30
4.5本章摘要.........30-31

结论
疾病与候选疾病位点的关联分析已成为复杂疾病基因定位的重要方法。病例对照设计是一种常用的关联分析方法。在病例对照设计中,十个未被识别的群体结构、遗传背景和其他因素导致关联分析中的错误结论。为了减少群体分层对关联分析的干扰,通常采用增加样本量的方法。尽可能选择具有相似遗传背景的群体。然而,即使如此,可能的人口分层现象的干扰也不能完全消除。已经提出了一些替代方法来应用ten来减少影响。本文提出了一种新的多步骤基因组关联分析方法。第一步,采用模糊数学中的相似性,用一系列独立的标记位点来判断样本个体来自同一群体还是不同群体。第二步,对每个群体中的样本进行相关性分析。
最后,将本文提出的测试统计量与林爽2航等人提出的测试统计量SAT进行了比较,仿真结果表明,当四个群体中候选疾病位点的频率不同时,本文提出的相似性测试比SAT具有更高的有效性,能够控制第一类错误率。当候选疾病位点的频率在四个人群中相同时,两种方法的效果类似于第一类错误率。