数据太多,看不过来?教你轻松精简数据
作者: aeks | 发布时间: 2026-03-24 00:43 | 更新时间: 2026-03-24 00:43
学科分类: 信息资源管理 天文学 管理科学与工程 计算机科学与技术
本文聚焦大型科学项目面临的数据爆炸挑战。以即将于2029年建成的平方公里阵列天文台(SKAO)为例:它在澳大利亚部署超10万根‘圣诞树状’天线,在南非安装约200个抛物面天线,每年原始数据产能高达6万拍字节(60艾字节),但仅约1%(700PB)会被实际存储。原因在于硬件成本、空间和能耗均难以承受——负责人沙里·布林直言‘连放这么多电脑的地方都找不到’。因此,科学家不得不主动取舍:SKAO按用户预先申请的需求存档处理后的数据产品(如图像或‘图像立方体’),而非全部原始数据;而气象学界则坚持保留全部原始观测数据(如气压、温湿度等),以确保模型回溯与结果复现;基因组学机构如桑格研究所虽暂存大量原始DNA测序数据(已达90PB),但也意识到‘数据可能从资产变成负担’,亟需明确的留存政策。文章指出,不同学科没有统一标准,但共通原则包括:不可替代或具法律效力的数据必须保留;支撑已发表论文或政府决策的数据需可追溯;资助方(如美国NIH、NSF)普遍要求数据开放共享,并通过Zenodo等通用库或领域专用平台(如脊髓损伤数据公共库)实现。英国环境研究理事会还提出涵盖法律合规性、历史价值与再利用潜力的三维度评估清单。最后强调:无论存什么,高质量元数据(描述数据来源、方法、格式等的信息)是数据可重用的生命线——没有它,数据几乎失去价值。