用STARLING精准预测“无序蛋白”的多种形态

作者: aeks | 发布时间: 2026-02-19 20:03 | 更新时间: 2026-02-19 20:03

学科分类: 生物化学与分子生物学 生物医学工程 生物工程 计算机科学与技术

内在无序蛋白及区域(IDRs)是结构异质的蛋白质区域,约占真核生物蛋白质组的30%。尽管缺乏固定结构,IDRs在转录、翻译和细胞信号传导等基本细胞过程中发挥关键作用。由于结构高度异质性,IDRs需用构象集合(大量结构不同且可互换的构象)来描述。虽然IDRs没有单一的3D结构,但它们仍具有序列编码的构象偏好,这些集合对其功能至关重要,且在疾病中可能受到干扰。就像结构生物学有助于理解折叠结构域功能的分子基础一样,人们越来越认识到IDR构象集合的表征对理解其功能很重要。

多种实验技术已用于研究序列与集合的关系,但它们只能反映IDR集合的特定方面,无法提供构象分布的整体描述(即蛋白质所有残基在不同构象中的3D坐标,称为“完整结构集合”)。为实现这一点,将计算建模与实验数据相结合已被证明是有效途径。

计算模型和实验结合主要有两种方式:一种是使用基于物理的模型并向实验观测值加权或偏置;另一种是用实验数据参数化可转移力场,原则上无需额外加权。尽管这两种方法都能提供对IDR行为的见解,但需要深厚的技术专业知识才能确保结论可靠,且计算成本较高。

尽管最近粗粒度模拟的进展提供了更快的替代方案(上述两种方式均可应用于此),但即使是粗粒度模拟也可能需要数小时才能获得足够采样,且设置、运行和分析仍需较高技术水平。基于粗粒度模拟训练的深度学习预测器已能实现蛋白质组尺度的集合平均值预测,但仅限于训练过的特定观测值(如回转半径Rg或末端距Re)。

深度学习方法改变了蛋白质结构预测,大大降低了大规模探索序列-结构关系的门槛。然而,这些方法不适合研究IDRs,原因包括无序蛋白的比对保守性降低、缺乏合适的实验训练数据,以及优化目标不恰当(从序列预测单一最佳结构,而IDRs应通过大量构象异质的集合来描述)。简而言之,虽然我们现在拥有准确预测折叠蛋白3D结构的易用工具,但缺乏快速准确预测IDR集合的等效工具。

为解决这些挑战,研究人员开发了一种从氨基酸序列直接预测完整粗粒度无序蛋白结构集合的快速准确方法。该方法利用生成建模(一种能创建新原创数据的深度学习技术)的进展。但开发生成模型面临一个关键挑战:需要大型训练数据集。为此,研究人员进行了大规模粗粒度模拟,生成了数万个天然和合成IDRs的完整结构集合。由此产生的方法——STARLING——能在几秒钟内从序列直接生成结构集合。开发STARLING的一个主要目标是避免硬件障碍,它在GPU上速度快(约每秒35个构象),在Intel/AMD CPU上几分钟内,在Apple CPU上几秒钟内也能生成集合。

STARLING生成的集合与实验数据吻合良好,可用于新IDRs的从头探索或实验数据的生物物理解释。此外,STARLING可用于:(1)研究无序蛋白的序列-集合关系;(2)探索二元无序蛋白复合物的结合态构象集合;(3)为IDR表征、搜索和设计提供构象感知的潜在表征。STARLING的易用性和速度使其成为推动IDRs序列-集合关系大规模探索民主化的强大工具。

生成式人工智能(AI)已在文本到图像生成方面带来变革。在文本到图像生成AI中,通过向预训练深度学习模型输入提示(描述所需图像的短语)生成图像,这一过程称为推理。能够推理的深度学习模型必须先经过训练。现代文本到图像生成AI模型的训练不仅是记忆,还学习提示与相关图像特征之间的关系。因此,模型训练后,同一提示多次使用会生成许多独立图像,均与训练中观察到的任何单个实例不同,但都与提示一致。

将单个文本提示映射到一组不同但都符合输入提示的图像,正是IDR集合生成要解决的问题。IDR集合生成中,需将氨基酸序列作为“提示”,生成大量不同且不相关的IDR构象。此外,生成过程需快速(秒级)且能在普通硬件(笔记本电脑和台式机)上运行。为实现这一目标,研究人员将变分自编码器(VAE)与离散时间去噪扩散概率模型(DDPM)结合,创建潜在扩散模型,即STARLING,实现了IDRs粗粒度构象集合的准确快速预测。

STARLING在150 mM离子强度下模拟的约50,000个独特理性设计和天然IDR序列(10-384个残基)上训练,其中约14,000个还在20 mM和300 mM离子强度下模拟。理性设计序列使用GOOSE设计,天然IDRs提供聚焦相关序列流形的训练数据,大量理性设计序列则系统覆盖序列空间,形成全面训练集。

深度学习模型需确定训练数据的范围,研究人员聚焦长度达384个氨基酸的序列,原因包括:约95%的常见模式生物天然IDRs短于384个残基;该长度能在合理时间内完成充分采样的粗粒度模拟;模型基础架构需要固定上限;长于约350残基的无序蛋白实验表征缺乏,难以评估模型预测有效性。

分子动力学模拟使用Mpipi-GG力场(一种单珠每残基的粗粒度模型)。模拟得到的长度为n的序列构象被转换为n×n距离矩阵(距离图),每个元素描述特定构象中第i和第j个残基之间的距离,将每个IDR构象转换为“图像”,从而直接利用条件图像生成的创新。训练数据集包含近1200万个距离图。

DDPM模型的两个核心限制是内存需求大且推理时生成过程慢,这源于在复杂高维空间(如384×384像素图像)中进行反向去噪过程。为缓解此问题,研究人员开发VAE将每个距离图压缩到低分辨率潜在空间(24×24像素),去噪扩散过程可在该空间进行,显著降低内存需求和推理时间。因此,STARLING分两个独立阶段训练。

首先训练高精度VAE实现全分辨率距离图到潜在空间的压缩。VAE使用ResNet18架构,学习编码器(全分辨率到潜在空间)和解码器(潜在空间到全分辨率)参数。在与训练和验证集差异大的序列生成的距离图上评估,模型重建均方根误差(RMSE)为1.16 Å,键长重建RMSE为0.18 Å,对蛋白质构象建模至关重要。

第二阶段训练DDPM,模型学习将随机噪声映射到单个潜在空间构象距离图,以相关氨基酸序列和离子强度为条件。训练数据来自近78,000次模拟的近1200万个距离图,每个图先压缩到潜在空间,然后通过固定前向扩散过程添加噪声,视觉Transformer模型学习逆转此过程。最终,通过并行运行多次推理生成许多独立距离图,实现集合生成。

训练需要VAE编码器生成潜在空间距离图,但模型训练后推理只需VAE解码器。完全训练的STARLING结合VAE解码器和DDPM,能快速预测集合。默认设置下,STARLING在GPU(Nvidia A4000)上约12秒生成400个独立IDR构象,Macbook Pro M3 CPU上20秒,Intel CPU上约6分钟。预测运行时间和内存与序列长度大致无关。

STARLING衍生的集合平均全局维度与未见过序列的Mpipi-GG模拟结果一致。使用约10,000个序列的测试集,STARLING的Rg(RMSE=0.85 Å,R²=0.996)和Re(RMSE=3.48 Å,R²=0.989)与模拟结果极佳吻合。在20 mM和300 mM离子强度下,STARLING的Rg和Re也与模拟结果高度一致。

模型准确性取决于集合大小和去噪步骤的平衡,发现30个去噪步骤和400个构象后Rg误差稳定,将其作为默认参数。通过长度匹配序列评估,模型有效捕捉了序列化学对IDR全局维度的影响,而非仅学习序列长度与维度的关系。

除集合平均观测值外,完整结构集合能计算任何感兴趣观测值的分布。使用Hellinger距离(H)比较分布相似性,STARLING衍生的Rg分布与模拟分布重叠度高(H值低)。评估STARLING和Mpipi-GG模拟生成的集合间所有残基间距离分布,发现所有距离分布均高度吻合,支持STARLING能从序列直接预测无序蛋白构象集合。

在与实验数据的一致性方面,使用133个有高质量小角X射线散射(SAXS)数据的序列,STARLING的平均Rg与SAXS推导的Rg吻合良好(RMSE=4.53,R²=0.90),与最先进的粗粒度模拟相当。对DisProt的3,417个IDRs预测,成功复制了已建立的序列-构象趋势(如芳香残基导致压缩,脯氨酸和谷氨酸促进扩展)。STARLING生成的集合对微小序列变化敏感,如hnRNPA1低复杂度域变体的预测维度与实验SAXS数据定量匹配。

利用STARLING生成的集合通过FOXS反算合成SAXS曲线,可直接与原始实验SAXS数据比较。对12个无关IDRs的散射曲线比较显示,在广泛的序列化学和长度范围内均吻合良好。对另外40组散射数据的重新分析也显示大部分与STARLING衍生的散射曲线高度一致。在单分子荧光共振能量转移(smFRET)实验中,16个长度匹配序列的预测末端距与实验数据也吻合良好,平均误差与最近smFRET基准研究中不同实验小组间的差异相当。

STARLING应用于多种IDRs研究:如转录调节因子Myc的N端IDR(Myc1-361),生成的构象集合显示其可分为两个部分,IDR1更紧凑,IDR2更扩展,构象不同的子区域与已知Myc-box边界对齐;真核RNA聚合酶II的C端结构域(CTD),STARLING集合与SAXS和全原子模拟一致,揭示其行为符合有效高斯链的聚合物统计;组蛋白H1.0 C端IDR与ProTα的静电驱动复合物,集合显示两者在复合物中收缩,ProTα中核磁共振(NMR)化学位移扰动识别的残基与STARLING复合物集合中驱动分子间相互作用的残基匹配;TRPV4离子通道N端IDR的基础磷脂酰肌醇4,5-双磷酸结合位点与酸性簇的远程调节相互作用,STARLING集合与SAXS数据一致,突变体中远程相互作用减少。

STARLING还应用于大规模集合预测,如1,785个微蛋白(通常小于100个氨基酸的非经典开放阅读框),预测其IDR集合,发现许多短IDR虽相对扩展,但存在由芳香族和精氨酸残基驱动的广泛分子内接触。

除准确快速的集合预测外,STARLING解决了反向设计问题:生成构象集合与目标匹配的序列。利用模型的集合感知序列表征,通过GOOSE的序列优化框架实现潜在对齐目标,最大化目标与候选学习序列表征的余弦相似度,能在集合感知的潜在空间快速设计,将每个候选设计时间从数周或数小时缩短到秒级,实现库规模设计。

STARLING能生成20 mM至300 mM离子强度的集合,对30个强聚两性序列(仅含赖氨酸和谷氨酸)的分析显示其与Mpipi-GG在训练离子强度下的末端距分布吻合良好。即使仅在三个离子强度下训练,STARLING也能插值未训练的离子强度,与Mpipi-GG的平均值高度一致,且能准确学习残基间距离构象分布的离子强度依赖性变化。

STARLING可通过两种途径整合实验数据优化IDR集合:一是在集合生成过程中引导构象向目标观测值靠近,适合生成远离无偏分布的集合;二是使用贝叶斯最大熵(BME)重加权,将STARLING集合作为先验,通过基于似然的约束整合实验数据(如SAXS和smFRET),生成更符合实验的集合。

STARLING的独特架构还实现了从序列直接进行快速大规模无序蛋白生物物理集合相似性搜索。通过序列编码器将序列编码到构象感知的潜在空间,可在该嵌入空间中搜索,识别构象相似的IDRs。例如,查询蛋白质SERF(UniProt ID: O75920)时,最相似和最不相似的候选者在平均成对距离图上有明显差异。

总之,STARLING是一种生成模型,能在秒级从蛋白质序列生成粗粒度IDR集合,虽有局限性(如不能预测二级结构、无法纳入折叠结构域、难以捕捉许多环境效应或翻译后修饰等),但显著降低了获取IDR序列依赖性构象预测的门槛,为IDR序列-集合行为研究提供了起点,可用于开发关于IDR序列如何决定构象集合及影响与其他IDRs相互作用的假设。

DOI: 10.1038/s41586-026-10141-2

标签: STARLING框架 内在无序蛋白 构象集合 生成深度学习 生物物理特性