陆地棉CNGC全基因组鉴定及表达分析

来源:期刊VIP网所属分类:生物科学发布时间:2022-01-13浏览:

  摘要:环状核苷酸门控通道(CNGC)基因家族是非选择性阳离子通道基因家族之一,在与植物发育和环境胁迫等有关的生理生化过程中起着至关重要的作用,但是目前尚无陆地棉CNGC基因家族的全基因组鉴定和分析。基于已知的拟南芥CNGC基因家族成员序列信息,以生物信息学方法分析陆地棉基因组中CNGC家族成员的理化性质、系统发育、染色体定位和差异表达情况。结果表明,共鉴定出33个GhCNGC基因,它们不均匀地分布在A、D染色体亚组上,其中15个基因分布在A染色体亚组上,18个基因分布在D染色体亚组上。系统发育分析结果表明,GhCNGC基因家族被分为4个主要组,由于在进化过程中不均等地扩增,Ⅳ组又分为Ⅳa和Ⅳb组。同组陆地棉、拟南芥的CNGC基因显示出相似的保守基序和基因结构,尤其是同源性越近,相似度越高。GhCNGC基因的表达谱以组织特异性模式表达,多数基因在根、叶中的表达量较高。研究结果使人们增加了对陆地棉和其他植物中CNGC基因家族的了解。

  关键词:CNGC;基因家族;全基因组;陆地棉;染色体定位;差异表达

  植物中的Ca2+通过钙离子传导通道进行信号转导是一种重要的信号转导机制。信号转导有助于植物生长发育、病原体防御及植物对激素、光和盐胁迫的反应[1]。环状核苷酸门控通道(CNGC)是可渗透Ca2+的阳离子转运通道,调节植物生长并应对生物和非生物胁迫。CNGC位于细胞质膜或核膜,由Ca2+/钙调蛋白(CaM)和环状单磷酸核苷酸(cNMPs)等二级信使从细胞内部控制[2]。在植物中,CNGC由6个跨膜(TM)域和介于第5、第6个TM域之间的1个孔区域组成。环状核苷酸结合结构域(CNBD)是一个高度保守的区域,并有1个磷酸盐结合盒(PBC)和1个铰链区。CNGC通过直接结合环状核苷酸而被激活,当钙调蛋白(CaM)结合到CaM结合域时会被抑制[3]。目前,生物信息学工具已在水稻[4]、玉米[5]、拟南芥[6]、甘蓝[7]、白菜[8]、番茄[9]中用于识别CNGC基因家族成员。

  之前的研究发现,CNGC是植物发育的关键组成部分。目前,大多数CNGC已通过遗传学方法得到表征,并且它们已显示出与植物生理、分子功能有关的重要作用,例如信号通路、植物发育和对环境胁迫的响应中涉及的多个生理过程。拟南芥环核苷酸门控通道2(AtCNGC2)参与拟南芥表皮细胞中茉莉酸(JA)诱导的质外体Ca2+流入[10],AtCNGC4可渗透K+、Na+,并被环磷酸鸟苷(cGMP)、环磷酸腺苷(cAMP)激活[11],AtCNGC7、AtCNGC8基因对雄性生殖力的作用至关重要[12],AtCNGC16、AtCNGC18基因可参与花粉发育[13],AtCNGC6、AtCNGC19、AtCNGC20基因参与了非生物胁迫反应[14]。

  近年来,人们对植物中的CNGC基因家族进行了研究,然而,关于陆地棉(Gossypium hirsutum Linn.)CNGC(GhCNGC)基因家族的系統鉴定、起源和功能的研究却很少。本研究利用陆地棉全基因组序列信息、拟南芥CNGC家族的研究信息及综合生物信息学分析技术对陆地棉中CNGC进行全基因组鉴定来完成每个CNGC基因家族成员的深入分析,包括对编码蛋白的生理、生化特性分析。此外,本研究还分析了CNGC家族成员的表达方式,以阐明其对生物、非生物胁迫响应的机制,并鉴定出可能对育种有用的新基因。

  1 材料与方法

  1.1 陆地棉CNGC基因家族成员的筛选鉴定

  陆地棉TM-1的基因组数据来自南京农业大学Cotton Research Institute网站 (http://mascotton.njau.edu.cn/),试验时间为2020年8月,试验地点为新疆维吾尔自治区石河子市新疆农垦科学院棉花研究所。以拟南芥CNGC基因家族成员的身份标志(ID)为探针在陆地棉TM-1基因组注释文件中查找陆地棉CNGC家族ID,用虚拟机Bio-Linux 80运行HMM-Search搜索结构域,并提取目标基因序列。

  1.2 陆地棉CNGC基因家族的理化性质分析

  通过ExPASY-ProtParam在线网站(https://web.expasy.org/protparam)对陆地棉CNGC蛋白家族氨基酸序列的分子式、总原子数、亲水性平均值、分子质量、蛋白不稳定系数等进行预测分析。通过SOPMA在线网站(https://npsa-prabi.ibcp.fr)分析陆地棉CNGC蛋白家族的二级结构。

  1.3 陆地棉CNGC基因家族进化树的构建

  将陆地棉、拟南芥的CNGC蛋白序列以fasta格式保存在1个文件中,用默认参数运行MEGA 7.0软件的ClustalW命令,进行序列对齐,采用邻接法(neighbor-joining,NJ)进行系统发育重建,以自举法(bootstrap method)进行系统发育计算,引导复制次数为1 000次,输出格式为Newick,通过Evolview在线网站进行进化树的编辑。

  1.4 陆地棉CNGC基因家族染色体的定位及结构分析

  根据陆地棉基因组数据库中CNGC基因家族成员在染色体上的区域分布和染色体长度,通过Map Gene 2 Chrom在线网站(http://mg2c.iask.in/mg2c_v2.1/)绘制染色体分布图。通过MEME在线网站(http://meme-suite.org/)进行motif分析,搜索得到motif的总数为10个。用本地软件TBtools将CNGC基因家族进化树、MEME分析图和基因结构图进行合并分析。

  1.5 陆地棉CNGC基因家族的差异表达分析

  从美国国家生物信息中心(NCBI)数据库中下载TM-1标准系陆地棉转录组数据包PRJNA248163,以FPKM值作为参数,将FPKM值低于8的分为一组,高于8的分为另一组。用TB-tools软件进行基因表达图谱的绘制。

  2 结果与分析

  2.1 陆地棉CNGC基因家族的鉴定分析

  以已知的20个拟南芥CNGC基因家族成员的蛋白序列作为参考序列,在陆地棉标准系TM-1全基因组数据库中进行比对筛选,最终获得33个环状核苷酸门控通道(CNGC)基因家族成员。由表1可以看出,陆地棉环状核苷酸门控通道基因家族成员基因编码区(CDS)序列全长为942~3 174 bp,编码氨基酸313~1 057个,脂肪指数为77.03~102.46,平均亲水性为-0.673~0.097,都属于亲水性蛋白;氨基酸残基分子量为36.54~121.04 ku,理论等电点为689~9.59。

  2.2 陆地棉CNGC基因家族的二级结构预测及蛋白的稳定性分析

  由表2可以看出,陆地棉CNGC基因家族成员的二级结构均由α-螺旋、延伸链、β-转角、无规卷曲4种结构组成,并且α-螺旋和无规卷曲是主要组成部分,所占比例最大。延伸链、β-转角包含的氨基酸残基数少,在二级结构中所占比例较小。根据蛋白不稳定指数统计结果发现,该家族成员的蛋白不稳定指数为39.11~57.22,仅GhCNGC29为稳定蛋白(稳定指数<40),其余的32个家族成员均为不稳定蛋白。

  2.3 拟南芥与陆地棉CNGC基因家族的系统发育分析

  本研究从陆地棉标准系TM-1基因组数据库中筛选得到33个GhCNGC基因,根据这些基因在染色体上的分布情况,将这些基因命名为GhCNGC1~GhCNGC33。依据拟南芥AtCNGC基因家族的系统发育关系,将GhCNGC基因家族的33个成员与AtCNGC基因家族的20个成员的蛋白序列构建成系统进化树。由图1可以看出,GhCNGC基因家族成员的聚类情况与拟南芥相似,分为4个组群,分别为Group I、Group Ⅱ、Group Ⅲ、Group Ⅳ,其中Group Ⅳ又分为Group Ⅳ a和Group Ⅳ b。Group I含有13个成员,包括7个GhCNGC(GhCNGC1、GhCNGC2、GhCNGC3、GhCNGC4、GhCNGC19、GhCNGC20、GhCNGC21)和6个AtCNGC(AtCNGC1、AtCNGC3、AtCNGC10、AtCNGC11、AtCNGC12、AtCNGC13);Group Ⅱ含有6个GhCNGC(GhCNGC13、GhCNGC14、GhCNGC15、GhCNGC16、GhCNGC17、GhCNGC18)和5个AtCNGC(AtCNGC5、AtCNGC6、AtCNGC7、AtCNGC8、AtCNGC9);Group Ⅲ含有10个GhCNGC (GhCNGC22、GhCNGC23、GhCNGC24、GhCNGC25、GhCNGC26、GhCNGC27、GhCNGC28、 GhCNGC29、 GhCNGC30、GhCNGC31)和5个AtCNGC(AtCNGC14、AtCNGC15、AtCNGC16、AtCNGC17、AtCNGC18);Group Ⅳa含有2个GhCNGC(GhCNGC32、GhCNGC33)和2個AtCNGC(AtCNGC19、AtCNGC20);Group Ⅳb含有8个GhCNGC(GhCNGC5、GhCNGC6、GhCNGC7、GhCNGC8、GhCNGC9、GhCNGC10、GhCNGC11、GhCNGC12)和2个AtCNGC(AtCNGC2、AtCNGC4)。

  2.4 陆地棉CNGC家族成员的染色体定位

  根据陆地棉标准系TM-1的基因组数据库资源,通过网站MapGene2Chrom进行在线GhCNGC家族成员的染色体定位分析[15]。将GhCNGC家族的33个成员定位在19条染色体上,并绘制该家族的基因图谱。结果(图2)显示,分布在D基因组亚组的基因最多,有18个,而这18个基因主要分布在染色体的两端,分布在上端的基因比分布在下端的基因多,分布在中间部位的基因仅有3个。分布在A基因组亚组的基因相对较少,有15个,这15个基因依然主要分布在染色体的两端。分布在D04、D05、D09和A05染色体上的基因最多,分别为3、3、3、6个,而其他染色体上仅分布1~2个该家族基因成员。

  2.5 陆地棉CNGC的系统进化和基因结构分析

  通过MEME在线网站[16]及TB-tools软件[17]分析GhCNGC家族成员的保守基序、内含子和外显子的数量及分布。由图3可以看出,同一亚家族成员分布在同一进化分支上,与图1中的进化分析结果相同。分析motif的数量及位置发现,同一组成员的motif数量基本相同,且分布的位置较接近,在不同组之间存在差异。该家族33个成员中的24个成员均含有10个motif,8个成员的motif数量为9个,1个成员的motif数量为5个。而motif数量为9个的成员大多分布在Ⅳ组,可能由于Ⅳ组与其他3组的亲缘关系较远。有趣的是,Ⅱ组中的GhCNGC16仅有5个motif基序。从在内含子与外显子的分布情况看出,多数同一组成员的内含子及外显子数量较为接近,I组7个成员外显子数为6~8个;Ⅱ组6个成员的外显子数量为3~7个,除GhCNGC之外,均为7个外显子;Ⅲ组的外显子数量为5~11个;Ⅳ组的外显子数量为7~13个, 但是Ⅳ a的2个成员的外显子数量分别为12、13个,Ⅳ b的成员中,5个外显子数量为7个,3个外显子数量为8个。而且同一组成员的外显子、内含子分布情况类似,差异显著性小,表明了进化的保守性。不同组之间的差异较为显著,尤其是Ⅳ组的成员之间及其与其他组相比较差异较大。

期刊VIP网,您身边的高端学术顾问

文章名称: 陆地棉CNGC全基因组鉴定及表达分析

文章地址: http://www.qikanvip.com/shengwukexue/61247.html