植物关联分析应用研究进展

来源:期刊VIP网所属分类:生物科学发布时间:2019-12-10浏览:

  摘要:随着分子生物学和基因组学的快速发展,关联分析成为近些年来在植物数量性状研究和植物良種选育中行之有效的分析方法。利用关联分析在分子水平阐明植物表型性状的遗传变异规律和机制,从而为植物的农艺性状改良及新品种选育提供新思路。系统详实综述了关联分析基本原理、关联作图的基本策略、关联分析的应用以及各种分子标记在关联分析中的应用,并讨论了关联分析在未来研究中的发展前景。

  关键词:关联分析;植物;表型性状;遗传变异;农艺性状改良;新品种选育;连锁不平衡;研究发展趋势;应用前景

烟台果树

  《烟台果树》(季刊)创刊于1980年,由烟台市农科院果树科学研究所主办。《烟台果树》发行量大(年发行16万册),覆盖面广,读者遍及全国各地,是交流果树信息的理想媒体。

  关联分析(association analysis)也称连锁不平衡作图(LD mapping)或者关联作图(association mapping),该方法通常以自然群体为研究对象,以连锁不平衡(linkage disequilibrium,LD)为基础,将目的性状表型的多样性以及遗传标记或候选基因的多态性联结起来分析,鉴定某一群体内目的性状与遗传标记或候选基因之间的关系[1]。从而在分子水平解释植物表型性状的遗传变异规律和机制,为植物表型性状的标记辅助选择以及目的基因的分离、检测、利用提供依据,进而为植物性状遗传改良研究提供理论基础,为植物杂交育种和性状改良寻求新途径[2]。

  到目前为止,关联分析已经在部分植物性状研究中取得进展,如玉米的开花期[3]、小麦的籽粒大小和研磨品质[4]、水稻的柱头[5]、葡萄的果穗长度[6]等,关联分析已经成为当前植物遗传育种研究的热点。

  本文经过系统全面的介绍关联分析基本原理以及分析策略,详细论述关联分析在目前植物遗传学研究中的应用进展以及各类分子标记技术在关联分析中的应用,探讨关联分析在今后的研究发展趋势和在植物遗传研究中的应用前景。

  1 关联分析基本原理

  1.1 连锁不平衡

  关联分析是以连锁不平衡(linkage disequilibrium,LD)为基础,也可称为配子相不平衡(gametic phase disequilibrium)、配子不平衡(gametic disequilibrium)、等位基因关联(allelic association)等,是指群体内不同座位等位基因(可以是标记,也可以是基因/QTL间与标记)间的非随机关联[7]。也就是说假设2个不同位点的等位基因一同出现的频率比理论上同时出现频率高时,那么称这2个位点处于连锁不平衡状态[8]。LD的基本定义式为Dij=fij-PAi·PBj,其中fij是AiBj基因型的频率,PAi和PBj分别是等位基因Ai和Bj的频率。由于Dij可以假定的最大值是所观察到的等位基因频率的函数,因此对于双等位基因和多等位基因,LD的强度有多种标准化度量,其中2种最常见的LD强度测量方法是:(1)单个LD值的标准化度量,Dij′=Dij/Dmax;(2)双等位基因数据的相关系数r,常用定义为r2=Dij2/(PA1·PA2·PB1·PB2)[9]。同一染色体或者不同染色体的基因座之间均可出现连锁不平衡状态,群体内存在的LD均是由突变造成的等位基因出现后座位间所有重组响应累积的结果,位点间连锁越紧密,其LD程度越高[10]。

  1.2 影响连锁不平衡的因素

  遗传因素和非遗传因素综合作用影响群体的LD水平[11]。一般情况下,在随机匹配群体里没有突变、迁移或选择因素的影响时,多态性位点则处于连锁平衡状态;与此相反,连锁、群体混合和选择将增加LD水平[12]。影响LD程度最重要的2个要素是突变和重组,突变是造成LD的一个重要因素,新突变的发生可冲破原有LD,进而导致新的多态性产生;然而重组则是经过重新组合序列变异,进而减弱染色体内部的LD。无连锁和自由交配的重组使位点间等位基因处于连锁平衡状态,因此LD的水平与重组率成反比[10]。群体中的LD是突变、重组和其他因素影响共同累积的结果[13]。

  此外,其他非生物要素和生物要素也影响LD程度,例如物种之间的交配体系、染色体位置、群体大小以及自然与人工选择[10]。基因转换或染色体片段所受的选择强度、遗传漂变[14-15]等也是影响LD水平的因素。

  1.3 连锁不平衡与关联分析

  在自然群体中,表型差异的根本原因主要是个体等位基因间的差异。连锁分析则是采用标记位点与引起表型差异位点之间的重组来定位数量性状基因座(quantitativetraitlocus,QTL),而关联分析利用引起表型差异的位点与标记之间的LD来定位QTL[10]。因此,进行关联分析的前提和基础是了解群体基因组LD的构造和规律。往往因为群体的基因组中存在数目巨大的多态性,因此多态位点的等位基因间存在广泛的非随机关联,亦称为LD状态。多个基因座等位基因间的连锁不平衡结构会产生一系列的单倍型,单倍型的大小则受LD衰减程度的影响。不同物种的连锁不平衡衰减距离不同,同一物种不同群体、同一群体不同座位的LD衰减距离也不同[16]。染色体上不同位置的连锁不平衡程度也不相同,研究发现位于着丝粒附近片段的重组率比较低,LD水平则较高;然而染色体臂上的片段区域重组率相对较高,相应LD水平则较低[17]。连锁不平衡的衰减程度越高,则形成的单倍型越小。

  1.4 关联分析与传统连锁分析的差异

  关联分析与传统连锁分析相比具有以下优势:(1)关联分析不必构建专门作图群体,而是运用自然群体的遗传多样性,将复杂的性状变异进行分解。利用关联分析构建的群体不须要管制研究对象的交配方式,而传统的连锁分析以父母本杂交产生的子代群体为研究对象。相比而言,关联分析可应用的种质材料更加广泛。(2)关联分析所研究的材料有较为宽泛的遗传基础,因此可同时对同一基因座的多个等位基因进行检测分析,相比绝大部分传统连锁分析,其所研究群体通常为2个亲本杂交重组的后代,所以基因座一般只触及2个等位基因。关于具备更小效应的基因,关联分析的发掘能力显著高于传统连锁分析[13]。(3)关联分析定位更精准,能够抵达单基因程度,由于关联分析应用在长期进化进程中自然群体所积累的重组信息,因而可到达更高的分辨率,从而达到对QTL的精准定位,甚至可直接定位到基因本身[10]。而传统连锁分析往往受到重组发生率的影响,进而导致分辨率较低,一般认为初级群体只能将QTL定位到10~20 cM的基因组区间内,而次级群体可达到单基因水平[18-19]。(4)运用的统计分析方法不同,传统的连锁作图措施包含了单标记分析、区间作图、复合区间作图以及贝叶斯区间作图[13]。与此相比,适用于关联分析作图的统计方法较为匮乏。

  2 关联分析的基本策略

  2.1 基于全基因组扫描的关联分析

  全基因组关联分析(genome-wide association study,GWAS)是采用自然变异群体,联合高密度分子标记图谱进行扫描,进而分析表型性状与分子标记之间关联关系的有效方法,现已发展成为发掘复杂农艺性状遗传变异的有效手段[20]。在以全基因组扫描为基础的的关联分析中,须要用散布于全基因组的高通量分子标记对某物种大群体的全部基因进行同时检测[8]。GWAS以群体中LD水平为基础,借助成百上千的个体组成的定位群体,采用一定数量的SNP标记构建的高密度遗传图谱,从而与表型数据进行关联分析。近年来,基于GWAS技术已在多种植物表型研究中取得一定的进展。代力强等以80份玉米核心自交系为关联作图群体,通过全基因组测序,筛选出16个与玉米粒长紧密关联的显著性SNP标记和3個候选基因[21]。刘静利用高密度的小麦90K单核苷酸多态性(SNP)芯片对西南麦区192份小麦品种进行株高性状的全基因组关联分析,发现57个与株高显著相关的SNP位点[22]。Feng等利用全基因组测序的472份油菜种质,在染色体A03、A05、A07和C07上鉴定出8个QTL与株高显著相关,在染色体A01、A03、A07和C07上的5个QTL被鉴定为与主枝数显著相关[23]。目前,基于全基因组关联分析已在各类植物物种深入研究,但在园艺植物中应用报道较为匮乏。

  GWAS一般采用5步进行:(1)关联群体的选择。应选择遗传变异丰富、表型差异较大、遗传基础较宽泛且应尽量包含某物种全部的遗传变异。(2)样本基因分型。基于常用的分子标记主要包括RFLP、AFLP、SSR及SNP等,随着全基因测序技术的不断发展,SNP标记方法得到广泛运用。除了使用基因芯片进行基因分型以外,还可直接重新测序获得研究样本个体的基因型,进而更加全面地挖掘样本基因组变异[20]。(3)群体构造与个体亲缘关系分析。GWAS通常以自然变异群体为研究对象,存在一定的遗传结构,其个体间也存在一定的亲缘关系,因而有可能导致染色体间的LD水平提高,使得目标性状与不相关的标记产生伪关联。因此,检测分析并矫正种质材料的群体结构有一定的必要。(4)目标性状的鉴定。目标性状评价的准确性对于关联分析的结果有重要影响,应反复对种质材料进行多重表型分析鉴定。(5)关联统计分析模型的选择。随着生物统计学的不断发展,关联统计分析模型不断得到完善,主要包含一般线性模型(GLM)和混合线性模型(MLM),通常可利用TASSEL软件或ANOVA计算方法进行关联分析[24]。

  随着第3代测序技术即单分子测序技术的发展,植物中主要物种全基因组测序逐步完成,物种的基因组信息越来越丰富,进而开发出大量的SNP标记。全基因组关联分析将成为今后植物数量性状研究的有利工具[25]。

  2.2 基于候选基因的关联分析

  基于候选基因关联分析主要针对于目标QTL区段内候选基因进行生物信息学分析,推定其生物学功能是否与数量性状表型位于同一调控网络,或是辅以生理生化分析,从而快速确定QTL区间内的候选基因,最终只针对筛选后的少数候选基因开展关联分析[26]。早在2001年,Thornsberry等初次将关联分析方法引入植物领域研究[27]。根据前人研究发现,dwarf8基因是一个与赤霉素的代谢相关且显著影响玉米株高的基因[28],而后Thornsberry等选用92份玉米自交系种质对dwarf8基因的多态性进行验证,研究表明dwarf8基因不仅影响玉米的株高,而且首次发现其中几个多态性位点与玉米开花期的变异性状显著相关[27]。此项研究发现意味着基于连锁不平衡的关联分析可能是进行基因功能验证以及基因发掘的一种行之有效的办法,为植物表型性状研究提供了新思路[16]。近年来,基于候选基因的关联分析已经成功应用于部分植物研究。Yu等以295份水稻材料在苗期进行水稻耐盐相关表型的全基因组关联研究,获得了93个候选基因,其中有6个与耐盐表型具有高关联[29]。Perez等以315份不同高粱材料,利用候选基因关联作图的方法,检测油菜素内酯生物合成和信号传导基因与植物结构性状之前的标记-性状关联,共检测出26个油菜素内酯基因的73个SNPs与目标表型显著相关[30]。于永涛利用94份玉米自交系验证了rab17基因与玉米籽粒产量相关联[31]。Andersen等利用SNP分子标记验证了PAL基因与玉米饲用品质间相互关联[32]。刘翠霞以150份葡萄杂交后代为试验材料,联合RNA-seq技术初步筛选了32个候选基因参与单萜代谢[33]。国内外研究结果均表明,基于候选基因关联分析是一个进行鉴定候选基因功能的强有力的工具。

期刊VIP网,您身边的高端学术顾问

文章名称: 植物关联分析应用研究进展

文章地址: http://www.qikanvip.com/shengwukexue/49712.html