从基因到生物特征:基于近1100个完整酵母基因组的研究
作者: aeks | 发布时间: 2025-11-23 18:03 | 更新时间: 2025-11-23 18:03
全面理解表型多样性的遗传结构,需要超越单核苷酸多态性(SNPs),考虑所有类型的遗传变异。尽管全基因组关联研究(GWAS)已发现数千个与复杂性状相关的位点,但历史上主要关注SNP等小变异,很大程度上是因为在物种水平检测更大、更复杂的变异存在困难。结构变异(SVs,包括插入、缺失、重复和重排)虽可能对复杂性状产生显著表型效应,却一直研究不足。新兴的长读长测序和泛基因组方法虽能在群体水平高分辨率检测SVs,但为大型队列组装完整的端粒到端粒基因组仍是挑战。
在表型方面,将转录本、蛋白质、代谢物等分子性状与生物体表型结合,能更详细地了解性状结构。而大型自然种群的多层表型数据仍较少见。酿酒酵母(Saccharomyces cerevisiae)是理想模型:有1000多株来自不同生态和地理起源的天然分离株,且有丰富的生物体和分子表型数据。但此前缺乏群体水平的SV目录,限制了对不同变异类型如何影响表型变异的理解。
本研究利用长读长测序,为1086株酿酒酵母天然分离株组装了近端粒到端粒基因组,构建了物种水平的SV和基因含量多样性综合目录。将该基因组资源与8391个分子和生物体性状整合后发现:与SNP及小插入缺失突变(indels,<50 bp)相比,SVs更常与表型变异相关,且多效性更强,尤其对生物体性状。基于图的泛基因组发现了2.5 Mb的非参考序列,突显了未知基因组多样性的程度。该研究填补了不同类型遗传变异对表型多样性贡献的认知空白。
研究首先完成了高质量基因组组装:对989株酿酒酵母用纳米孔技术测序,平均深度95×,N50为19.1 kb,结合其他数据共1027株,经混合组装流程得到1015株染色体级组装,加上71株参考组装,共1086株。这些组装的连续性和完整性接近参考基因组,达到近端粒到端粒水平。
随后分析了物种水平的SV谱:通过与参考基因组比对,在1086株中鉴定出6587个独特SV事件,包括存在缺失变异(PAVs)、拷贝数变异(CNVs)、倒位和易位等,总长27.3 Mb。转座元件(尤其是Ty元件)是SV的主要贡献者。群体规模使SV多样性量化更精确,估计物种总SV约7237个,本数据集捕获了90%以上。SV等位基因频率偏向低频,69%为罕见变异(MAF<1%),易位和倒位比PAVs和CNVs更罕见,可能有强有害效应。
基因组分布上,SV高度不均,在亚端粒区显著富集,且富集程度强于SNP和indels。鉴定出46个SV热点,部分源于基因组脆弱性(如Ty元件或重复序列),部分与适应性压力有关(如葡萄酒菌株中的亚硫酸盐和铜抗性相关SV)。
基因-based泛基因组分析显示:酿酒酵母泛基因组包含5047个核心基因(所有菌株共有)和3494个 accessory基因(存在可变)。2199个非参考基因中,56.1%来自近缘 Saccharomyces 物种的渐渗,16.3%为水平基因转移(HGTs),23.5%为快速进化基因,4.2%可能为从头基因起源。基因含量变异受种群结构影响,部分渐渗基因赋予新性状(如MEL基因使菌株能利用蜜二糖)。
GWAS分析发现:纳入SVs和indels后,性状遗传力平均提高14.3%。共鉴定出7768个显著关联,涉及3717个性状和4564个QTL,其中SV-QTL占19.8%,显著高于SNP-QTL(6.5%)和indel-QTL(10.5%)。SV-QTL多效性更强,平均影响2.82个性状,且在亚端粒区富集,常为QTL热点(如ALD2和ALD3基因融合与66个表达性状和30个生长性状相关)。
不同性状类型的遗传结构存在差异:生物体性状平均每个性状有1.7个QTL,遗传更复杂;分子性状平均0.9个QTL,效应更强。SV-QTL在生物体性状中占比更高(41.1%),表明大变异可能对多调控层有更持久的表型效应。
最后构建了图泛基因组,包含6587个SV,非冗余序列中21%(2.5 Mb)为参考基因组所无,有助于其他酿酒酵母群体的SV基因分型,为真核生物基因组研究提供了框架。