单个碱基层面解析复杂性状的基因变异
作者: aeks | 发布时间: 2026-02-27 00:04 | 更新时间: 2026-02-27 00:04
全基因组关联研究(GWAS)已成功将数万个基因座与人类复杂性状和疾病关联起来,但精确定位每个基因座中确切的因果位点(即变异)仍是一项更艰巨的任务,这是理解单个变异及其影响的基因如何导致遗传风险的关键步骤。大多数与性状相关的变异单独效应较小,且位于非编码顺式调控元件(CRE)中。连锁不平衡(附近变异的等位基因相互关联的现象)进一步阻碍了因果变异的识别。
遗传精细定位通过为每个变异分配一个后验包含概率(PIP)来部分解开这些相关性,该概率表示其为关联的因果变异。目前,仅约10-20%的性状相关基因座可通过基因型信息解析为单个变异。为帮助在具有挑战性的基因座识别因果变异,精细定位构建了95%可信集(CS),即包含至少95%累积PIP的最小变异集。与其他连锁不平衡窗口方法相比,CS通常更小且更易于实验处理。
尽管CRE和其他基因组注释的大规模实验目录有助于识别因果变异,但大多数精细定位的变异不会破坏已识别的调控语法单元。体外对包含这些变异的CRE进行直接基因组编辑可以揭示受影响的序列和核苷酸特异性效应,但这些方法在规模和敏感性上受到限制。
为应对这些挑战,我们使用了大规模平行报告基因测定(MPRA),这是一种高通量方法,可同时评估数千个DNA序列的调控活性。MPRA旨在测量启动子和远端元件的CRE,能有效检测对多种转录因子(TF)的反应。每个序列都有独特的条形码标记在报告基因转录本中,不仅能测量转录活性,还能通过比较RNA转录本与输入质粒DNA中的条形码丰度来测试等位基因特异性活性。
我们开发了以下系统方法来评估性状相关基因座并在GWAS所需的规模上测量测定性能:
1. 我们从近期复杂性状和表达数量性状基因座(eQTLs;分子性状)的精细定位研究中选择了95%CS中的变异。我们纳入了高PIP(大于0.9)和低PIP(小于0.01)的变异,分别作为因果和非因果对照变异。
2. 我们合成了包含每个变异的200碱基对(bp)元件,将参考或替代等位基因置于中心,将这些元件克隆到最小启动子上游,并将文库转染到5种不同的细胞系中。对于CRE中150bp内的变异对,我们测试了所有四种单倍型组合以评估上位性(非加性)相互作用。
3. 如果一个或两个等位基因在至少一种细胞系中显著增加或降低转录输出(|log₂转换的倍数变化[log₂FC]|>1,Bonferroni校正P<0.01),则元件被定义为有活性。如果等位基因之间的活性存在显著差异(错误发现率[FDR]<0.1),则有活性元件中的变异被定义为表达调节变异(emVars)。
4. 为评估区分可能的因果变异和非因果变异的能力,我们评估了emVars区分高PIP变异与对照的效果。
高PIP变异在emVars和其他基因组注释(如CRE)中富集。在这里,我们将CRE定义为在至少一种细胞类型中同时具有可及染色质和激活组蛋白修饰证据的基因组区域,这是通过汇编DNase I超敏位点(DHSs)、转座酶可及染色质(ATAC)和H3K27ac的细胞图谱获得的。与我们之前的工作一致,位于内源性CRE中的emVars最能识别可能的因果调控变异。我们将这些13,121个高置信度变异称为性状相关调控变异(TARVs)。
为了解分子和复杂TARVs如何影响表达,我们使用系统方法来提名受TARVs影响的TF位点和其他功能特征。我们利用这些信息选择了136个TARVs,代表各种性状和预测的调控效应,并对其进行深度突变扫描(饱和突变)。通过MPRA,我们扫描了包含参考或替代等位基因的整个元件,并测量了将每个核苷酸改变为其他可能核苷酸的影响。我们开发了一种方法来识别称为活性块(ABs)的短而连续的DNA序列,这些序列有助于元件活性,从而能够直接提名受TARVs影响的TF位点,包括传统方法遗漏的情况。最后,我们利用这些序列-功能图谱探索调控语法的关键方面,并展示如何使用这些图谱不仅理解常见变异,还理解罕见变异的效应。
总之,我们的方法系统地测量了数十万个性状相关变异的调控效应,剖析了它们的机制,识别了它们的上位性效应,并揭示了常见调控变异与其序列背景之间的复杂相互作用。
标签: 因果变异 复杂性状 大规模平行报告基因测定 调控机制 饱和突变