适合中国人群的基因风险评分
作者: aeks | 发布时间: 2025-11-14 15:03 | 更新时间: 2025-11-14 15:03
现代遗传学的一大目标是通过个人基因图谱预测复杂疾病风险,从而制定健康管理策略以降低风险(如疾病预防)和优化医疗(如早期诊断与有效治疗)。英国生物银行等大型研究已显示基因风险预测的潜力,多国也在探索将其应用于临床。其中,利用多基因风险评分(PRS,一种综合多个基因变异来评估疾病风险的分数)识别高风险人群是新兴的“精准医疗”手段。然而,目前PRS模型主要基于欧洲 ancestry(EUR)人群的全基因组关联研究(GWAS,在全基因组范围内寻找与疾病相关的基因变异),这导致其在其他 ancestry人群中的预测效果下降。为实现精准医疗在全球多样人群中的潜力,需针对特定人群开展大规模全表型组基因组研究,并优化临床适用的多基因风险模型。
东亚 ancestry(EAS)人群占全球近四分之一,但在既往GWAS中仅占3.95%的参与者。虽已有一些东亚生物银行,但样本量中等(7.2万-21.2万)且多聚焦特定疾病,而欧洲人群生物银行样本量更大(22.4万-63.5万)且临床数据更全面。这限制了东亚人群独特遗传效应的发现及PRS模型的开发。
台湾精准医疗计划(TPMI)构建了大型非欧洲人群队列,2019-2023年在台湾16家医疗中心招募并基因分型超50万参与者(以汉族为主),获取其入组前5年及未来的电子病历(EMR),包含丰富的健康表型数据。本研究对TPMI队列进行全面基因组分析,包括全表型组GWAS和PRS模型开发,识别出众多人群特异性风险变异/基因,发现遗传多效性证据,并确定具有相似遗传病因的性状集群。随后开发并在台湾生物银行(TWB)、英国生物银行(UKB)和“我们所有人”研究计划(All of Us Project)等外部数据集中验证了多种疾病的PRS预测模型。结果显示,利用未充分研究人群的大型队列,可揭示人类表型组的独特遗传基础,通过精细定位和共定位解释因果效应,并改进特定人群PRS模型的性能,从而更好阐明遗传风险的临床意义。
在TPMI中,对46.3万余名与汉族参考人群遗传相似的个体,分析了695种二分表型(病例数>2000)和24项定量性状(样本量>10万)。GWAS发现265种表型和所有24项定量性状存在显著位点,与东亚GWAS已报道疾病位点的重复率高,尤其内分泌和代谢/造血疾病。精细定位识别出2656个独立关联信号,包括95个新关联和217个已知区域的新位点。部分新变异在其他ancestry人群中罕见(如PIBF1基因的rs17089782与甲状腺癌相关,在TPMI中 minor allele frequency为5.65%,欧洲人群仅0.01%)。乙型肝炎在台湾高发(TPMI中有23618例),识别出26个位点,其中19个为新位点,且与自身免疫性疾病呈负相关。
遗传力分析显示,酒精依赖、尿潴留等疾病及身高、BMI等定量性状的遗传力较高。基因水平遗传力和共定位分析发现329个显著贡献基因,部分基因影响多种表型(如APOE、KCNQ1)。遗传相关和聚类分析识别出三大表型集群:心代谢性状、自身免疫与感染性疾病、肾脏相关性状,提示疾病间共享遗传机制和多效性效应。
开发PRS模型时,LDpred2工具表现最佳。265个表型的PRS模型中,105个AUC>0.55;定量性状模型解释方差0.028-0.227,强直性脊柱炎、银屑病等模型预测性强,乙型肝炎PRS的AUC达0.654。利用性状集群开发的多性状PRS(PRSmix+)性能提升,心代谢疾病集群AUC从0.608增至0.648,解释方差提高1.77倍。
外部验证显示,TPMI的PRS模型在TWB(AUC 0.548-0.712)、UKB东亚人群(0.557-0.634)和All of Us东亚人群(0.520-0.709)中表现良好,且优于基于欧洲人群的模型。遗传风险对整体健康指标(临床就诊次数、住院时长)的解释率达8.47%-10.29%,其中心代谢疾病集群贡献最大。
本研究表明,针对东亚人群开发的特定人群风险预测模型可实现强预测性能,为全球多样人群PRS模型开发和验证提供范例,助力精准医疗的公平性与实用性。