用语言模型预测和发现哺乳动物的代谢物

作者: aeks | 发布时间: 2026-01-15 04:02 | 更新时间: 2026-01-15 04:02

学科分类: 生物医学工程 生物工程 计算机科学与技术

基于质谱的代谢组学通常能在生物样本中检测到数千种化学实体,但即使在人体组织或生物流体中,大多数也无法常规确定化学结构。这些大量未识别的化学实体被称为代谢组的“暗物质”,表明现有代谢图谱远未完整,亟需系统方法解析。

深度学习生成模型已成为研究生物大分子结构与功能的强大工具。蛋白质序列语言模型能学习塑造现有序列的潜在进化力量,设计新蛋白、预测变异效应等。化学语言模型通过将小分子结构表示为文本字符串(如简化分子线性输入规范SMILES)进行训练,过去十年主要用于药物发现中的合成化学空间探索。本文介绍DeepMet,一种基于已知代谢物结构训练的化学语言模型,可预测未识别的代谢物。

研究假设化学语言模型能从已知代谢物结构特征学习,生成代谢物样化学空间的未识别结构。训练集包含2046种经实验检测的人类代谢物,以SMILES表示,经ChEMBL数据库药物样结构预训练后,用长短期记忆(LSTM)模型训练并生成50万个SMILES。多种证据表明DeepMet能生成类代谢物结构:生成分子与已知代谢物在化学空间(通过均匀流形近似与投影UMAP可视化)高度重叠;随机森林分类器难以区分生成分子与已知代谢物(受试者工作特征曲线ROC接近随机);能重现77.5%已知代谢物的一步酶转化反应;与已知代谢物的结构相似度高于PubChem或ChEMBL中同分子式随机分子。

通过分析10亿个SMILES样本的生成频率发现,高频生成分子与已知代谢物结构相似度更高、更可能是酶转化产物、共享化学骨架、生物活性谱(通过Fréchet ChemNet距离量化)更相似,即更具代谢物特性。将其用于预测新代谢物,人类代谢组数据库(HMDB)5.0新增的313种代谢物中81%被DeepMet生成,且高频生成分子显著富集HMDB 5.0代谢物。获取或合成80种高频候选物标准品,其中17种通过保留时间和串联质谱(MS/MS)在人尿液或血液中被鉴定。

DeepMet还能基于精确质量优先结构。给定代谢物精确质量(±10 ppm),筛选匹配的DeepMet生成分子并按频率排序,对 withheld代谢物的Top-1结构准确率达29%,正确结构常出现在Top-3或Top-10候选中。结合CFM-ID预测MS/MS谱,正负离子模式下结构鉴定准确率分别达52%和49%,显著提高鉴定性能。在人血液代谢组数据中,结合DeepMet生成结构的预测MS/MS谱库,比仅用已知代谢物谱库能匹配更多实验MS/MS谱,且高频生成结构更易匹配。部分匹配结构经合成标准品验证,如败血症患者血液中N1-甲基咪唑乳酸水平可区分患者与健康对照。

在小鼠23种组织/生物流体中,经NetID过滤后检测到4814个峰,仅5.2%通过标准品匹配鉴定。DeepMet结合CFM-ID正确注释50%已知峰,实验验证97种预测已知代谢物中58种。通过元学习整合DeepMet频率、MS/MS相似度、同位素模式、保留时间等多源信息,代谢物注释准确率提升至70%。最终在小鼠组织中发现16种新哺乳动物代谢物,部分与饮食、肠道菌群和宿主代谢相关(如3-(甲硫基)丙烯酰甘氨酸受抗生素影响且掺入13C-甲硫氨酸,提示微生物参与合成)。

本研究表明,DeepMet通过预测未识别代谢物结构填补代谢研究空白,展示了化学语言模型在推进哺乳动物代谢组图谱绘制中的潜力。

DOI: 10.1038/s41586-025-09969-x

标签: DeepMet 代谢物发现 代谢组 化学语言模型