人类细胞核三维结构与功能的全面解读
作者: aeks | 发布时间: 2025-12-18 15:03 | 更新时间: 2025-12-18 15:03
二十多年前人类基因组草图公布以来,科研人员投入大量精力鉴定基因组中编码的所有基因和功能元件。由此形成的注释百科全书揭示了丰富的编码和调控信息,加深了对人类发育和生理过程中多种细胞类型及状态下基因调控机制的理解。如今,将这些功能注释与遗传变异相结合,正开始将遗传编码的功能元件和基因与复杂性状及人类疾病联系起来。
基因组的空间组织方式与其内部遗传信息的激活、利用和表达密切相关,且这种关联具有细胞类型和状态特异性。例如,增强子会与特定的远端基因发生功能性相互作用,而忽略其他基因,这一过程受绝缘子元件、 tethering元件等遗传序列控制,可能涉及相分离、增强子-启动子直接接触、黏连蛋白/凝缩蛋白介导的环挤压(可能还有其他折叠机制)以及依赖扩散和/或DNA追踪因子的“远距离作用”等生物物理机制。
基因组的组织具有不同尺度。在染色质纤维的局部尺度上,核小体定位和组蛋白修饰影响DNA的结构和可及性;在高达数百千碱基的尺度上,染色质环动态形成,有时富集于特定顺式元件附近,且在许多(但非所有)情况下,这些环是通过黏连蛋白和凝缩蛋白的主动环挤压形成的;沿着染色体的挤压模式受增强子、启动子和绝缘子等顺式元件调控。环挤压不仅促成CTCF结合位点等特定顺式元件之间的环,也是拓扑关联结构域(TADs)形成的基础。TADs内部的基因座通过黏连蛋白介导的挤压频繁相互作用,其边界常存在CTCF位点,可阻断挤压,从而降低边界两侧基因座的相互作用概率(即“绝缘”现象)。最后,大小从几千碱基到兆碱基不等的染色体域在空间上聚集,形成亚核区室,这些关联可能涉及核 speckles、核仁、核周缘等功能不同的亚核结构。
为理解基因组如何将遗传信息转化为生物学响应,关键在于定量测绘并从机制上理解基因组相对自身及核标记物/体的物理组织,例如确定哪些远端增强子与靶基因接触,以及它们如何协同调控基因表达。4D核体计划的目标是在功能元件分辨率下,深入了解不同细胞状态、不同时间及单细胞水平的人类基因组3D折叠(即绘制4D核体),从而揭示染色体折叠与基因组功能的联系、探索折叠机制并推断基因组结构与功能的因果关系。
该计划于2015年启动第一阶段,主要聚焦于开发和基准测试用于测量4D核体的互补实验方法、开发分析和解释4D核体数据的计算与建模方法,以及生成人类基因组折叠的结构和定量模型。研究团队收集了两种特定人类细胞类型——H1胚胎干细胞(H1细胞)和永生化包皮成纤维细胞(HFFc6细胞)的染色质状态、染色体折叠和核组织数据。通过基准测试和验证基因组测定方法,发现每种方法都能提供不同信息,进而形成了一份面向未来研究的用户指南。整合这些数据集后,获得了染色体沿线4D核体特征的线性注释、每种细胞类型超过14万个环相互作用的广泛注释,以及详细的3D基因组模型(包括反映基因组组织细胞间变异的模型)。利用这些基因组模型和结构特征,研究人员深入探究了染色体结构与基因表达、DNA复制模式的关系,并构建了可推断序列变异对染色体折叠影响的预测模型(例如在疾病中的影响)。本研究所有数据可在4D核体数据协调与整合中心(https://data.4dnucleome.org/)公开获取。
研究首先对3D基因组测定方法进行了基准测试。目前已有多种探测基因组3D折叠的测定方法,本研究主要分析测序-based方法( consortium同时也在进行成像-based方法的分析)。测序-based方法可分为两类:一类是染色质相互作用测定,全面检测基因座间的空间邻近性(如3C类测定、基因组结构测绘GAM);另一类是报告基因座与特定核结构(如核纤层、核仁、核 speckles)的物理距离(如TSA-seq)或接触频率(如DamID、SPRITE)。通过比较H1和HFFc6细胞中多种无偏基因组范围方法(Hi-C、Micro-C、SPRITE、GAM)和靶向方法(RNA聚合酶II和CTCF的ChIA-PET、H3K4me3的PLAC-seq)的生物学重复数据,发现除GAM外,所有数据集的染色体内(顺式)相互作用比例达70-90%,表明高信噪比;数据集首先按细胞类型聚类,再按方法聚类,而SPRITE和GAM作为仅有的多向相互作用检测方法单独成组。
通过绘制不同长度尺度的接触图谱热图,发现不同方法在大基因组距离上捕获的染色质组织模式相似,但放大特定区域可见,针对CTCF、RNA聚合酶II或H3K4me3组蛋白修饰的染色质接触测绘仅捕获无靶标方法(Hi-C、Micro-C)检测到的部分接触。对HFFc6细胞(H1细胞结果类似)的相互作用频率与基因组距离关系分析显示,所有方法均观察到预期的反比关系,且P(s)曲线形状相似。
基因组在空间上分为与常染色质和异染色质相关的活性A compartments和非活性B compartments,可进一步细分为具有不同染色质状态和相互作用谱的亚compartments。所有接触图谱在大距离上均显示出这种“格子”模式,通过特征向量分解发现A/B compartments通常在第一特征向量中捕获,且大多数测定的特征向量高度相关。利用鞍图分析计算compartment化强度,发现H1细胞的compartment化相对较弱,而终末分化的HFFc6成纤维细胞更强;不同方法在HFFc6细胞中检测到的compartment强度不同,其中SPIN(2-100片段集群)和Hi-C最强,GAM、Micro-C和靶向测定则较弱。大SPIN集群的纳入会降低compartment化强度并导致小compartment域被吸收。
TAD边界可减少顺式调控元件与边界两侧基因的相互作用概率,通过绝缘分析发现不同方法的绝缘分数谱视觉相似,但SPRITE和GAM的动态范围较低;绝缘分数基因组范围的Pearson相关性显示,除SPRITE和GAM外,所有方法的绝缘谱高度相关,且通常按细胞类型聚类。总体而言,局部域边界形成是基因组折叠的稳健特征,可被多种染色质相互作用测定捕获。
研究接着评估了不同染色质相互作用方法检测染色质环(特定基因座对之间的局域富集远程相互作用)的能力。通过结合Peakachu和平台特异性方法,在H1细胞中鉴定出141,365个环和69,731个锚点,HFFc6细胞中鉴定出146,140个环和75,305个锚点,且没有单一方法能检测到全部环,表明各方法各具互补性。基于环锚点的染色质状态组成,利用UMAP将环投影到2D空间,在两种细胞中均识别出6个环集群,具有不同的染色质状态组成和转录因子结合特征。例如,第二类集群主要由绝缘子之间的环组成,其锚点富集CTCF和黏连蛋白;与转录相关的环则富集活性染色质状态和RNA聚合酶II等因子。
通过整合互补的3D基因组测绘数据(如TSA-seq、DamID和Hi-C数据),研究团队利用SPIN框架生成了全基因组范围的空间核区室线性注释(SPIN states)。在H1和HFFc6细胞中鉴定出9种SPIN states,反映基因座相对核 speckles、核仁和核纤层的不同空间定位模式,并与组蛋白修饰、复制时间和染色质相关RNA(caRNAs)等功能基因组数据密切相关。例如,从核周缘到内部的SPIN states,活性组蛋白标记富集度增加,抑制性组蛋白标记减少;含Alu、srpRNA等重复元件的caRNAs富集于内部SPIN states,而含L1、ERVL等重复元件的caRNAs则富集于近核纤层的SPIN states。
利用Hi-C、lamin B1 DamID和SPRITE数据,通过整合基因组建模平台(IGM)构建了H1和HFFc6细胞200 kb分辨率的1000个单细胞3D基因组结构群体,这些结构揭示了单细胞中染色体在核拓扑结构内的折叠,并通过多重FISH成像和TSA-seq数据独立验证。定义了14个结构特征来描述基因座的核微环境,分析发现不同SPIN states的核微环境特征各异,且基因的核定位模式与其表达高度相关。例如,在H1中高表达的POU3F1基因主要位于核内部,与核 speckles距离近,而在HFFc6中沉默时则更靠近核周缘;HFFc6中高表达基因的90%(包括73%的管家基因)与核 speckles有中高关联频率,并据此定义了核微环境I类和II类基因,二者在结构特征、调控架构等方面存在显著差异。
单细胞3D基因组分析表明,染色质折叠存在广泛的细胞间变异。通过对WTC-11多能干细胞的scHi-C数据进行分析,发现同一compartment或TAD样域内的基因座更可能在同一细胞中形成更强的染色质环,例如RABGAP1L基因附近的环在同一TAD样域或同一compartment的单细胞中强度更高。
利用上述环集合,研究分析了远端增强子与启动子的相互作用与基因调控的关系。在H1和HFFc6细胞中,分别有14,321和12,804个蛋白编码基因与至少一个远端增强子相互作用,增强子-启动子的中位距离为173 kb,显著短于CTCF介导的环;基因的表达水平与其相互作用的增强子数量呈正相关,且这种增强子连接性与两种细胞系间的转录差异密切相关。管家基因尤其倾向于与远端增强子发生物理相互作用,但在不同细胞类型中与不同的增强子集相互作用,80.3%的增强子-启动子对具有细胞类型特异性,表明管家基因与远端增强子的染色质环高度动态。
核纤层相关域(LADs)提供总体抑制性核环境,其中的基因通常沉默,但部分基因可逃脱抑制,且这些基因比其他无增强子相互作用的LAD驻留基因更可能表达,而活跃表达的LAD驻留基因比非活跃基因具有显著更多的增强子相互作用。这些基因及其相互作用的增强子通常位于富含活性染色质标记且lamin B1信号缺失的小区域,可能通过局部环出LAD来建立功能性增强子-启动子通讯。
整合A/B compartments、SPIN states、TADs、subTADs和环的功能模式分析显示,SPIN states和compartments的兆碱基尺度折叠模式与复制时间域最相关,而TADs和subTADs反映其所在compartment和SPIN state的复制时间,自身无明显局部复制时间邻域,但边界富集活跃转录基因。复制起始区(IZs)分析发现,早期IZs在特定TAD边界(dot TADs)富集,表明TAD折叠特征具有功能多样性。
综上,本研究通过整合多种基因组方法,提供了人类4D核体的详细视图,展示了各方法在特定研究问题中的优势(如SPIN和Hi-C最有效检测compartment化,Micro-C最适合检测结构环,PLAC-seq和ChIA-PET等富集-based测定适合检测基因表达相关环),编制了两种常用细胞类型中顺式元件间环相互作用的广泛目录,生成了SPIN states等空间信息注释轨道,并构建了可将基因组功能置于3D背景下分析的空间模型集合。未来,结合单细胞分析、成像数据整合及深度学习模型,有望进一步揭示4D核体的结构与功能机制,助力疾病相关遗传变异的研究。