谷歌AI让顶尖科研软件变得更强大

作者: aeks | 发布时间: 2025-10-23 05:38 | 更新时间: 2025-10-23 05:38

学科分类: 人工智能 数据科学 计算机科学与技术 软件工程

谷歌AI让顶尖科研软件变得更强大
谷歌AI让顶尖科研软件变得更强大

人类编写的代码正面临人工智能生成的进化代码的激烈竞争。谷歌研究人员公布了一种利用人工智能改进科学软件的新工作流。该公司为六项任务构建了软件工具的进化“树”,每棵树的“节点”都是单个程序,其性能通过标准基准进行评估。研究团队通过提示大型语言模型(LLM)来改进现有程序的性能,从而创建新节点。研究人员向LLM输入研究论文摘要、专业知识和其他信息以提供帮助。在每项任务中,部分生成的程序性能都超越了最先进的工具。

加拿大英属哥伦比亚大学(位于温哥华)的计算机科学家詹妮·张(Jenny Zhang)曾使用类似方法设计程序,她说:“看到像谷歌这样的大公司利用进化方法在其他科学领域取得突破,真的很酷。这让我希望,我所从事的研究方向在扩大规模后能产生重大影响。”

未参与该研究的新泽西州皮斯卡塔韦罗格斯大学数据科学中心主任、生物统计学家埃文·约翰逊(Evan Johnson)表示:“当我真正专注于科学研究时,90%的时间都在编码。”谷歌的新工作流旨在通过让软件进化(基于现有工具和在线资源)来实现这一过程的自动化。

谷歌通过让其代码变异系统完成数据科学竞赛平台Kaggle上发布的任务,测试选择节点进行变异或提示LLM修改节点的方法,从而完善了该系统。随后,研究人员将该方法应用于六个科学领域。针对每个领域,他们培育了多棵进化树,每棵树最多有2000个节点。通过要求LLM从头编写程序(告知其实现现有方法、结合两种方法或创建新方法),创建树的初始节点。在变异程序时,LLM还可以检索文献以获取新想法。系统可以复制和“变异”树中的任何节点,而非仅变异性能最佳的节点,这使得进化过程能够通过曲折路径实现开放式发现,最终走向成功。

首个应用是“单细胞RNA测序数据的批量整合”,即合并不同的基因组数据集。该系统生成了40个程序,性能均超越了由约翰逊开发的最佳人类编写程序ComBat,得分最高的程序性能提升了14%。接下来,他们利用进化方法优化程序,以预测美国各州的新冠肺炎住院人数。其最佳预测模型在新冠肺炎预测中心(一个预测模型库)中得分高于所有其他模型。

其他任务包括卫星图像标注、预测斑马鱼(Danio rerio)的神经活动以及“时间序列预测”(预测不同领域的数据点在几秒到几年的时间间隔内的变化趋势)。在这三个任务中,进化程序均击败了现有程序。在最后一项挑战中,谷歌创建了用于解决微积分问题的常见函数变体。最佳变体尝试解决了原始函数未能解决的19个问题,并成功解决了其中17个。

谷歌研究人员就这项工作回答了《自然》杂志的问题,但因手稿尚未经过同行评审而拒绝公开置评。作者们表示,该团队正致力于让科学家能够使用该系统,许多优化工具可在网上找到。

DOI: 10.1038/d41586-025-03289-w

标签: 人工智能生成的进化代码 大型语言模型 科学软件 谷歌 进化树