一种革命性的DNA搜索引擎正在加速基因发现

作者: aeks | 发布时间: 2025-10-29 15:28 | 更新时间: 2025-10-29 15:28

学科分类: 数据科学 生物学 计算机科学与技术 软件工程

同时,越来越多的研究者公开其测序结果,这导致了数据的爆炸式增长,这些数据存储在美国SRA(序列 read 档案库)和欧洲ENA(欧洲核苷酸档案库)等主要数据库中。目前,这些档案库共存储约100拍字节(PB)的信息——大致相当于整个互联网文本的总量,1拍字节等于100万吉字节(GB)。

此前,生物医学科学家需要庞大的计算资源来搜索这些海量的基因库并将其与自己的数据进行比较,这使得全面搜索几乎不可能。苏黎世联邦理工学院的研究人员现已开发出一种方法来克服这一限制。

无需下载整个数据集的全文搜索

该团队创建了一个名为MetaGraph的工具,它极大地简化和加速了这一过程。MetaGraph无需下载整个数据集,而是可以直接在原始DNA或RNA数据中进行搜索——很像使用互联网搜索引擎。科学家只需在搜索栏中输入感兴趣的基因序列,根据查询内容,几秒钟或几分钟内就能看到该序列在全球数据库中的出现位置。

“这有点像DNA的谷歌(Google),”苏黎世联邦理工学院计算机科学系的数据科学家冈纳·拉奇(Gunnar Rätsch)教授解释道。以前,研究人员只能搜索描述性元数据,然后必须下载完整的数据集才能访问原始序列。这种方法速度慢、不完整且成本高昂。

研究作者表示,MetaGraph的成本效益也非常显著。存储所有公开可用的生物序列只需几个计算机硬盘,大型查询每兆碱基的成本不超过约0.74美元。

由于这种新的DNA搜索引擎既快速又准确,它可能会显著加速研究——特别是在识别新出现的病原体或分析与抗生素耐药性相关的遗传因素方面。该系统甚至可能帮助在这些庞大的数据库中找到能破坏有害细菌的有益病毒(噬菌体)。

300倍压缩

在10月8日发表于《自然》(Nature)杂志的研究中,苏黎世联邦理工学院的团队展示了MetaGraph的工作原理。该工具使用先进的数学图来组织和压缩基因数据,这种图能更高效地构建信息结构,类似于电子表格软件排列数值的方式。“从数学上讲,它是一个拥有数百万列和数万亿行的巨大矩阵,”拉奇解释道。

创建索引使大型数据集可搜索是计算机科学中的一个常见概念,但苏黎世联邦理工学院的方法之所以突出,是因为它将原始数据与元数据连接起来,同时实现了约300倍的超高压缩率。这种压缩就像总结一本书——它去除冗余,同时保留关键内容和关系,以更小的形式保留所有相关信息。

“我们正在突破可能性的极限,以在不丢失必要信息的前提下尽可能压缩数据集,”安德烈·卡莱斯(André Kahles)博士说,他和拉奇一样,是苏黎世联邦理工学院生物医学信息学小组的成员。与目前正在研究的其他DNA搜索工具相比,苏黎世联邦理工学院研究人员的方法具有可扩展性。这意味着查询的数据量越大,该工具所需的额外计算能力就越少。

目前已有一半数据可用

MetaGraph于2020年首次推出,并不断得到完善。该工具现已公开提供搜索服务(https://metagraph.ethz.ch/search),并且已经索引了数百万来自病毒、细菌、真菌、植物、动物和人类的DNA、RNA和蛋白质序列。目前,全球近一半的可用序列数据集已被纳入,其余部分预计将在年底前完成。由于MetaGraph是开源的,它也可能引起管理大量内部研究数据的制药公司的兴趣。

卡莱斯甚至认为,这种DNA搜索引擎有朝一日可能会被普通人使用:“早期,就连谷歌也不完全清楚搜索引擎有什么用。如果DNA测序技术继续快速发展,更精确地识别你家阳台上的植物可能会变得很平常。”

DOI: 10.1038/s41586-025-09603-w

标签: DNA搜索引擎 MetaGraph 噬菌体 基因数据压缩 病原体识别