更准的RNA结构预测：用丰富数据和智能算法缩小预测误差

作者: aeks | 发布时间: 2026-03-16 12:02 | 更新时间: 2026-03-16 12:02

本文针对RNA二级结构预测领域两大核心难题——现有算法泛化能力弱、缺乏端到端高精度模型——提出系统性解决方案。研究首先指出：当前主流数据库（如bpRNA、RNAStrAlign）严重偏向短小的非编码RNA（如tRNA、rRNA），导致模型在面对人类mRNA、病毒RNA、长链非编码RNA（lncRNA）和初级microRNA（pri-miRNA）等重要生物分子时性能急剧下降。作者通过严谨评测发现，即使最先进的UFold等模型，在lncRNA测试集上的F1分数仅约0.16，远低于其在PDB短RNA上的0.87，证实了“泛化鸿沟”的真实存在。

为弥合这一鸿沟，研究团队自主研发了RNAndria数据库：采用DMS-MaPseq化学探针技术，对4550个人类mRNA 3′端序列和1292个pri-miRNA进行高通量结构探测，经严格质控（如每碱基测序深度≥3000、重复实验Pearson相关系数＞0.95、AUROC＞0.8）后，获得1456个mRNA和1098个pri-miRNA的高质量二级结构模型。该数据库首次大规模覆盖了长度200–1000核苷酸、功能关键且此前结构数据稀缺的RNA类型。

在此基础上，作者创新性地设计了eFold模型：其架构融合了AlphaFold中的Evoformer模块思想与卷积神经网络（CNN），包含序列通道（自注意力机制捕获长程依赖）和配对矩阵通道（ResNet处理局部结构关系），并通过跨通道信息交互实现协同优化。模型经两阶段训练——先用30余万个结构（含RNACentral合成数据）预训练，再用RNAndria新数据微调。结果表明，eFold在最具挑战性的病毒RNA和lncRNA测试集上F1分数分别达0.73和0.44，显著超越UFold（0.58/0.16）和SPOT-RNA（0.56/0.26）。消融实验证实，CNN与自注意力模块缺一不可；相对位置编码则使模型能灵活适应任意长度序列。

研究强调：单纯扩大数据量无法解决泛化问题，关键在于提升数据的多样性（家族、长度、结构复杂度）；eFold的成功正源于此。未来工作将扩展RNAndria数据库规模，并纳入更多非经典碱基配对、假结及多态构象数据，以推动RNA结构预测从“短RNA精准”迈向“全谱系可靠”，最终助力解析RNA在基因调控、病毒感染等生命过程中的深层机制。

DOI: 10.1126/sciadv.adz4967

标签: RNA结构预测 eFold 化学探针泛化能力深度学习模型