用AI语言模型设计全新功能基因
作者: aeks | 发布时间: 2025-11-20 10:02 | 更新时间: 2025-11-20 10:02
学科分类: 生物医学工程 生物学 生物工程 计算机科学与技术
尽管生成式人工智能(AI)有望加速功能性生物系统的设计,但向生成模型清晰定义“功能”仍具挑战,且往往描述不明确。在自然语言中,分布语义学假设词义可通过词语共现来体现,即“观其友而知其词”。在生物学中,一种新兴的分布假设认为基因功能可通过其与其他基因的相互作用来定义,即“观其邻而知其基因”。原核基因组中,功能相关基因常成簇或操纵子形式相邻排列,这种“关联推断法”已用于发现新分子机制和生物技术工具。
本文介绍的基因组语言模型Evo,通过学习原核基因间的语义关系,实现了基于基因组上下文的功能引导设计(语义设计)。首先,Evo具备情境基因组设计能力,能利用序列保守模式补全原核基因和操纵子。例如,用部分保守基因序列提示Evo,其能高准确率补全基因;提示操纵子中某个基因,能生成相邻基因序列,且核苷酸序列多样但关键氨基酸保守,类似自然进化。
接着,我们将语义设计应用于生成高新颖性和特定功能的基因。在toxin-antitoxin(TA)系统设计中,Evo生成了多个功能TA对,实验成功率高,包括与已知毒素无显著相似性的毒性基因和功能性RNA antitoxin。在抗CRISPR(Acr)设计中,生成了多个功能Acr,与已知Acr无序列或预测结构相似性。
最后,我们构建了SynGenome数据库(https://evodesign.org/syngenome/),包含Evo基于9000个功能术语提示生成的1200亿碱基对合成DNA序列,并公开可用。综上,语义设计凭借其多功能性和高成功率,为功能引导设计提供了有前景的框架,能超越已知进化序列景观。