更准的RNA结构预测:用丰富数据和智能算法缩小预测误差

作者: aeks | 发布时间: 2026-03-16 12:02 | 更新时间: 2026-03-16 12:02

学科分类: 智能科学与技术 生物工程 计算机科学与技术

更准的RNA结构预测:用丰富数据和智能算法缩小预测误差
更准的RNA结构预测:用丰富数据和智能算法缩小预测误差

本文针对RNA二级结构预测领域两大核心难题——现有算法泛化能力弱、缺乏端到端高精度模型——提出系统性解决方案。研究首先指出:当前主流数据库(如bpRNA、RNAStrAlign)严重偏向短小的非编码RNA(如tRNA、rRNA),导致模型在面对人类mRNA、病毒RNA、长链非编码RNA(lncRNA)和初级microRNA(pri-miRNA)等重要生物分子时性能急剧下降。作者通过严谨评测发现,即使最先进的UFold等模型,在lncRNA测试集上的F1分数仅约0.16,远低于其在PDB短RNA上的0.87,证实了“泛化鸿沟”的真实存在。

为弥合这一鸿沟,研究团队自主研发了RNAndria数据库:采用DMS-MaPseq化学探针技术,对4550个人类mRNA 3′端序列和1292个pri-miRNA进行高通量结构探测,经严格质控(如每碱基测序深度≥3000、重复实验Pearson相关系数>0.95、AUROC>0.8)后,获得1456个mRNA和1098个pri-miRNA的高质量二级结构模型。该数据库首次大规模覆盖了长度200–1000核苷酸、功能关键且此前结构数据稀缺的RNA类型。

在此基础上,作者创新性地设计了eFold模型:其架构融合了AlphaFold中的Evoformer模块思想与卷积神经网络(CNN),包含序列通道(自注意力机制捕获长程依赖)和配对矩阵通道(ResNet处理局部结构关系),并通过跨通道信息交互实现协同优化。模型经两阶段训练——先用30余万个结构(含RNACentral合成数据)预训练,再用RNAndria新数据微调。结果表明,eFold在最具挑战性的病毒RNA和lncRNA测试集上F1分数分别达0.73和0.44,显著超越UFold(0.58/0.16)和SPOT-RNA(0.56/0.26)。消融实验证实,CNN与自注意力模块缺一不可;相对位置编码则使模型能灵活适应任意长度序列。

研究强调:单纯扩大数据量无法解决泛化问题,关键在于提升数据的多样性(家族、长度、结构复杂度);eFold的成功正源于此。未来工作将扩展RNAndria数据库规模,并纳入更多非经典碱基配对、假结及多态构象数据,以推动RNA结构预测从“短RNA精准”迈向“全谱系可靠”,最终助力解析RNA在基因调控、病毒感染等生命过程中的深层机制。

DOI: 10.1126/sciadv.adz4967

标签: RNA结构预测 eFold 化学探针 泛化能力 深度学习模型