用机器学习在隐藏空间中整合全球气象数据
作者: aeks | 发布时间: 2026-01-24 18:03 | 更新时间: 2026-01-24 18:03
数据同化(DA)旨在通过整合所有可用信息来估算动力系统的最优状态,在大气科学中,它对于数值天气预报(NWP)的初始化和可靠气候再分析数据集(如ERA5)的生成不可或缺。尽管观测数据的数量和质量取得了显著进步,但过去二十年来,业务NWP的核心DA方法基本未变,主要依赖如四维变分同化(4DVar)和集合卡尔曼滤波等贝叶斯方法。然而,这些方法面临背景误差协方差矩阵(B)估计的根本挑战:NWP模型状态的高维度(通常超过10¹²维)和大气动力学的非线性导致B具有时变的流依赖性,使得准确构建B非常困难,现有方法仍难以生成足够精确的B,导致DA解空间失衡。
机器学习(ML)凭借学习高维和大型数据中复杂非线性映射的能力,在DA领域应用日益广泛。但现有ML DA方法或启发式结合观测似然,或端到端学习直接映射,缺乏传统贝叶斯DA对先验信息的严格整合,且物理约束多为隐式学习。潜空间DA(LDA)通过自编码器(AE)将高维大气状态非线性编码为紧凑潜空间,在潜空间进行同化,有望结合ML的非线性表征能力与传统方法的统计严谨性。
本研究首次将LDA应用于高维、多变量全球大气场景。通过AE将包含69个大气变量的高维状态压缩为潜空间,在潜空间进行贝叶斯同化后解码得到模型空间分析结果。OSSEs(观测系统模拟实验)表明,L4DVar(潜空间4DVar)相比传统4DVar平均减少5.1%的分析误差,并在预报期间保持优势;真实GDAS观测实验中,L4DVar在近所有变量上持续优于4DVar,对54/69变量的分析误差平均减少约5%。即使AE训练数据为误差较大的预报数据,LDA仍能生成与ERA5训练相当的分析结果,且优于传统4DVar,表明其能超越训练数据精度。
LDA的物理一致性体现在:单观测实验中,潜空间同化能产生符合地转平衡的风场和温度场响应,表明AE学习的潜空间隐式编码了变量间物理依赖关系。理论分析显示,解码器在DA增量方向上近似仿射行为,潜空间背景误差协方差矩阵(Bz)近对角化,无需复杂协方差结构即可维持物理一致性。潜空间维度对LDA性能有影响,最优压缩比约为32,LDA在较宽维度范围内均优于传统DA,表现出强稳健性。
LDA的优势在于通过AE压缩自然编码非线性物理关系,使Bz可对角化,简化实现同时提升性能。其无需依赖精确再分析数据训练,在观测稀疏地区具有应用潜力。未来需改进AE设计、探索集合或非线性LDA形式,以解决重建误差、高斯假设等局限。LDA为下一代DA系统提供了有前景的路径,有望整合到高分辨率地球系统模型中。