我是如何从公开数据中挖掘出新鲜有趣的科学发现

作者: aeks | 发布时间: 2026-03-30 10:01 | 更新时间: 2026-03-30 10:01

学科分类: 生物医学工程 统计学 计算机科学与技术

作者原本并未计划以分析他人数据为职业方向,但在博士期间偶然利用实验室已有的埃及伊蚊细胞系数据,发现了一种此前未被描述的新病毒。该病毒不能感染哺乳动物细胞,却能轻微抑制登革热病毒复制——这一现象提示昆虫特异性病毒可能影响蚊媒疾病传播机制。导师鼓励他扩大搜索范围,他随即下载并分析了全球约3000个蚊子转录组数据,追溯该病毒的全球演化历程。博士末期,他又重新审视本校另一位病毒学家实验室已发表的非编码RNA与细胞外囊泡数据,意外发现病毒会以全新方式切割宿主RNA,由此开启合作并共同获得国家级科研基金支持。作者指出:对早期研究者而言,已公开的基因组、临床试验、生态调查和医学影像等数据是宝贵资源——无需实验成本,仅需一个问题、一台装有R或Python的电脑,以及换一个角度思考的意愿。例如美国NCBI的序列读取档案(SRA)存有超50拍字节数据,多数长期闲置;2022年Serratus项目即靠重分析这些数据,将已知RNA病毒多样性扩大十倍。数据重分析的价值不仅在于验证原结果,更在于挖掘原始研究未关注的关联;结合多类型数据(如蛋白质组+转录组、卫星图像+实地调查)往往产出最富启发性的发现。但成功前提是对元数据(如实验条件、时间点、重复次数、技术平台)有清晰理解;若解读困难,重分析可能事倍功半。尽管大量尝试可能无果,但零结果本身也具科学价值;严谨的二次分析完全可作为独立成果发表、引用,并支撑后续基金申请。

DOI: 10.1038/d41586-026-00434-x

标签: 二次数据分析 开放科学数据 数据重分析 病毒-宿主互作 蚊媒病毒

下一篇
没有更新的文章