用“进化2号”为所有生命体构建和设计基因组
作者: aeks | 发布时间: 2026-03-05 06:24 | 更新时间: 2026-03-05 06:24
本文介绍了Evo 2——一种面向全生命域的基因组尺度人工智能基础模型。与以往仅针对特定物种或分子类型(如蛋白质)的模型不同,Evo 2首次在统一框架下同时建模DNA、RNA和蛋白质三类分子信息,并覆盖原核生物、古菌和真核生物等全部生命域。其核心突破在于:第一,训练数据规模达9万亿碱基对,来源于严格筛选的‘全生命域基因组图谱’,使模型能捕捉跨物种的深层生物学规律;第二,采用创新的‘条纹海纳2’(StripedHyena 2)混合架构,支持长达100万个碱基对的上下文窗口,可精准建模远距离基因调控关系;第三,无需针对具体任务进行额外训练(即‘零样本’能力),就能直接预测各类基因变异的功能影响,例如非编码区致病突变、临床重要的BRCA1基因变异等;第四,不仅能预测,还能主动‘生成’具有生物学合理性的DNA序列,包括完整线粒体基因组、小型原核基因组(如生殖支原体)乃至含内含子的真核基因组(如酵母);第五,结合外部预测模型(如Enformer、Borzoi),可在推理阶段实时引导生成,精准设计出指定位置和宽度的染色质开放区域(类似在基因组上‘写摩斯电码’),并在实验中成功验证。研究团队已将Evo 2模型参数、全部训练与推理代码、以及超大规模训练数据集OpenGenome2完全开源,旨在为全球科研人员提供一个强大、透明且可扩展的生物智能基础设施。简言之,Evo 2不是单一工具,而是一个通用‘生物语言模型底座’,为理解生命复杂性、加速新药研发、推动合成生物学发展提供了全新范式。