这款AI懂化学,帮科学家合成了35种新物质

作者: aeks | 发布时间: 2026-01-30 18:03 | 更新时间: 2026-01-30 18:03

学科分类: 化学工程与技术 药学 计算机科学与技术

化学合成是指由简单的前体物质生成复杂化合物的过程。对化学家而言,寻找重磅药物和神奇材料是一项艰巨的任务:他们必须筛选数百万种已知的化学反应(每年还会新增数十万种),然后测试目标化合物是否可以合成。

如今,研究人员开发出一种能大幅简化并加速化学合成过程的人工智能系统。该系统名为MOSAIC,相关研究于1月19日发表在《自然》杂志上。研究人员利用MOSAIC推荐的条件,成功生成了35种具有成为药物、农药或化妆品等产品潜力的化合物,且无需进一步筛选或调整。

该研究的合著者、美国康涅狄格州纽黑文市耶鲁大学的化学家蒂莫西·纽豪斯表示:“小分子合成是药物研发及其他多个重要领域中的慢步骤。”他补充道,MOSAIC有望打破这一瓶颈,从而催生更多、更好的产品。它“能够起草完整的实验室操作指南——详细到化学家可以直接遵循——以帮助合成此前不存在的分子”。

人工智能辅助化学
预测化学反应条件一直是人工智能在化学领域应用的重点。其中最著名的工具之一是IBM的RXN for Chemistry,它基于大型语言模型(LLM)构建。该工具采用简化分子线性输入规范(SMILES),这种规范能将化学三维结构转化为字母、数字和标点符号,更适合语言识别系统处理。相比之下,像ChemCrow这样的大型语言模型则是通过自然语言数据进行化学任务训练的。

纽豪斯指出,SMILES方法能更轻松地处理起始原料和溶剂等化学信息。“我们的目标是构建一个通用模型,让它能像化学家那样‘读懂’化学——通过理解实验步骤的描述语言,快速将这些集体智慧转化为实用建议。”他还提到,将MOSAIC生成的分步操作指南整合到自动化系统中,将是“顺理成章的下一步”。

研究人员利用他们此前开发的人工智能系统,将从专利中提取的约100万种反应的数据库聚类为2285个子集。借助这些子集,研究团队训练了Meta公司的部分开源大型语言模型Llama,创建出2498个独立的“专家模型”,每个模型都专门针对从某类分子出发的特定化学转化过程。由于该方法使用的参数比主流大型语言模型少,因此可以在本地计算机上运行。

美国北卡罗来纳州立大学(位于罗利市)的材料科学家马丁·塞弗里德表示,MOSAIC的突出之处在于它没有“用最大的模型去解决问题,而是选择专注于精心设计的由更小‘专家模型’组成的系统”。“每个专业模型在其领域内的准确性更高。”塞弗里德说。

DOI: 10.1038/d41586-026-00240-5

标签: MOSAIC系统 专家模型 人工智能-化学应用 化学合成