用AlphaGenome更准确预测基因调控变异的影响

作者: aeks | 发布时间: 2026-01-29 12:03 | 更新时间: 2026-01-29 12:03

学科分类: 生物医学工程 生物工程 计算机科学与技术

解读基因组序列变异的影响是生物学的核心挑战。非编码变异(位于蛋白质编码区域之外)因其可能引发多样的分子后果而难以解读,例如调节染色质可及性、表观修饰、三维构象,影响mRNA表达或剪切,且具有细胞/组织特异性。由于人类98%以上的遗传变异是非编码的,若无计算预测,全面表征这些变异的复杂效应难以实现。
计算方法可从实验数据中学习模式来预测和解释变异效应,其中“序列到功能”模型以DNA序列为输入,预测基因组轨迹(每个碱基对与实验测定值相关的数据格式),涵盖基因表达、剪切、DNA可及性、组蛋白修饰、转录因子结合、染色质构象等多种模态。成功训练的此类模型能准确预测实验测量值,并通过比较参考序列与替代序列的预测结果来评估变异的分子效应。
当前基于深度学习的“序列到功能”模型面临两个根本权衡:一是因计算限制,需在捕捉长程基因组相互作用与实现核苷酸水平预测分辨率间取舍(如SpliceAI等模型分辨率高但输入短,Enformer等输入长但分辨率低);二是在捕捉多样模态与专攻少数模态间取舍(如SpliceAI专攻剪切,Orca专攻三维基因组,但单一模态模型难以全面捕捉变异的多模态后果,而多模态模型可能在特定任务上逊于专业模型或缺乏某些模态)。
为此,我们提出AlphaGenome,一个将多模态预测、长序列背景和单碱基分辨率统一的模型。它以100万碱基(1 Mb)DNA序列为输入,预测多种细胞类型中多样的基因组轨迹,包括剪切位点、剪切位点使用和新的剪切连接预测。通过全面基准测试,AlphaGenome在24项基因组轨迹预测任务中的22项和26项变异效应预测任务中的25项达到最先进水平。消融研究表明,目标分辨率、序列长度、蒸馏和多模态训练等设计选择对其性能有重要影响。
AlphaGenome的核心技术包括U-Net启发的骨干架构,通过序列并行处理1 Mb序列,生成一维(1 bp和128 bp分辨率)和二维(2048 bp分辨率)序列表示,分别用于基因组轨迹和染色质接触图预测。训练分预训练和蒸馏两阶段:预训练产生折叠特异性模型(用于评估未见过的基因组区间预测能力)和全折叠教师模型;蒸馏阶段训练学生模型重现教师模型预测,提升变异效应预测的稳健性和效率。
性能评估显示,AlphaGenome在未见过的基因组区间上预测与观测信号高度一致,在人类和小鼠基因组的功能基因组轨迹预测中均有高Pearson相关性。在剪切变异预测方面,它能同时预测剪切位点、使用和连接,准确捕捉已知变异导致的外显子跳跃等现象,在多种剪切相关变异效应预测任务中表现最佳。在基因表达任务上,它能预测eQTL效应大小和方向,优于现有模型,尤其在远端变异和低频变异的解读中表现突出,还能改善增强子-基因连接预测和3'多聚腺苷酸化QTL预测。在染色质状态预测中,对染色质可及性、DNase敏感性和转录因子结合QTL的预测性能超过专业模型,并在CAGI5 MPRA挑战中通过多模态特征整合达到最先进水平。
AlphaGenome能跨模态解释变异效应,例如准确重现TAL1致癌基因附近临床相关变异的机制,通过多模态热图展示致癌突变与对照变异的不同预测机制。其多模态预测能力有助于解析复杂性状相关非编码变异的调控影响。
总之,AlphaGenome为解析基因组调控密码提供了强大且可扩展的基础,在分子生物学研究、罕见病诊断、治疗设计等领域有广泛应用前景。尽管存在捕捉远端调控元件、组织特异性预测等挑战,但其统一多模态框架为理解DNA序列编码的调控过程迈出了重要一步。

DOI: 10.1038/s41586-025-10014-0

标签: AlphaGenome DNA序列模型 功能基因组学 变异效应预测