人类基因“开关”调控规律的新发现
作者: aeks | 发布时间: 2026-02-05 08:02 | 更新时间: 2026-02-05 08:02
启动子通常包含转录起始位点(TSS)及其上游数百个碱基对的DNA序列,其中含有可被多种转录因子(TFs)结合的短序列基序。构建能从DNA序列预测启动子活性的计算模型具有挑战性。深度学习技术虽有潜力,但依赖大量训练数据,而基于表观基因组特征的模型存在局限性。大规模平行报告基因分析(MPRA)可在特定细胞类型中测试数百万基因组DNA片段的自主调控活性,为模型训练提供替代数据来源。
本研究提出PARM(启动子活性调控模型),这是一种结合优化MPRA与深度学习的平台,数据生成和计算建模均具经济性。PARM基于卷积神经网络(CNN)架构,在K562和HepG2等细胞中,通过MPRA数据训练,能高精度预测独立测试启动子的活性,且可推广到基因组整合的启动子。PARM能进行虚拟饱和突变分析,准确预测TERT等基因启动子突变对活性的影响,还能通过遗传算法设计高活性合成启动子,这些合成启动子与天然强启动子活性相当,且不含人类基因组序列相似性。
利用PARM,研究系统识别了人类启动子中影响活性的转录因子结合位点(调控位点,RSs),多数RSs匹配已知TF基序,并与细胞中表达的TF相关。通过捕获法构建的启动子聚焦MPRA库,大幅降低了实验成本,可在多种细胞系(如前列腺癌、乳腺癌细胞)和患者来源的结肠癌细胞类器官中应用。PARM还揭示了细胞类型特异性调控,如HepG2细胞中HNF4A基序的肝特异性激活作用,以及刺激(如热休克、药物处理)引起的TF调控网络重编程。
此外,研究发现转录因子的调控活性具有位置偏好:激活型RSs多位于TSS上游-50bp附近,而抑制型RSs分布更广且在TSS下游富集。通过基序插入实验证实,NRF1、NFYA等TF在TSS下游插入时表现出抑制作用,而YY1则具有激活作用,表明启动子存在复杂的调控语法。PARM为深入理解人类启动子的动态调控提供了经济高效的工具,有望应用于个性化医疗等领域。