人工智能能理解人体细胞的惊人复杂性吗?
作者: aeks | 发布时间: 2025-10-31 10:29 | 更新时间: 2025-10-31 10:29
人类细胞内有数万亿分子,包括约4200万种蛋白质及大量碳水化合物、脂质和核酸,其复杂的内部结构和动态化学反应远超人类当前理解能力。为破解这一难题,研究人员二十多年前开始构建方程模拟细胞部分功能,如今则转向AI驱动的细胞模型——这类模型像ChatGPT等大语言模型一样,通过海量实验数据自主学习细胞的运作规律,而非依赖开发者设定的固定规则。艾伦研究所AI科学家卡西娅·凯齐尔斯卡表示,人们期待生物学领域也能出现类似ChatGPT的突破时刻。
AI细胞模型潜力巨大。在制药领域,可快速评估大量候选药物,省去昂贵实验;能作为细胞工程测试平台,实现定制功能;还可根据患者分子特征构建个性化虚拟细胞,辅助医生选择精准药物;甚至能整合为虚拟组织或器官模型,研究肿瘤微环境对生长的影响等。陈·扎克伯格倡议(CZI)的西奥法尼斯·卡拉莱佐斯指出,这类模型能整合海量分子数据库信息,形成“知识整合图谱”。
早期非AI全细胞模型如2012年马克斯·科弗特实验室的生殖支原体模型、2022年赞·卢西-舒尔滕团队的最小细菌3D模型,虽能模拟代谢、生长和分裂等短期动态,但依赖开发者设定的生物学规则,数学方程与现实的贴合度存疑,且难以预测基因沉默等复杂效应。慕尼黑工业大学的法比安·泰斯称,这些模型在某些预测任务上“完全失败”。
AI驱动模型则通过海量数据自主学习。2023年克里斯蒂娜·西奥多里斯团队的Geneformer基于近3000万个人类细胞基因活性数据训练,能推断基因互作并预测沉默基因的效应,经CRISPR实验验证,其预测的两个基因沉默可增强心肌细胞收缩力,显示出加速药物发现的潜力。CZI的TranscriptFormer学习了12个物种1.12亿个细胞的数据,具备零样本分类未训练物种细胞、区分新冠感染与健康肺细胞等能力。
然而,当前AI模型面临诸多挑战。多数依赖单一基因活性数据,数据总量仍不足,且缺乏像蛋白质数据库(PDB)那样的统一存储库;评估方法存争议,零样本测试显示部分基础模型在细胞分类等任务上不及简单方法,康斯坦丁·阿尔曼-埃尔策团队发现,预测基因互作响应时,基础数学公式比多个AI模型更准确。艾伦研究所的凯齐尔斯卡认为,失败之处能提供改进信息,不应放弃。
为推动进步,Arc研究所的哈尼·古达齐等发起虚拟细胞挑战赛,每年测试模型性能。首届比赛要求预测人类胚胎干细胞中300个基因沉默后的效应,超1000支团队参赛,优胜者将获10万美元奖金及GPU计算时间。类似1994年蛋白质折叠竞赛,该挑战赛旨在通过竞争提升模型能力,助力AI细胞模型早日实现其变革生物医学的潜力。