用纳米孔单次测序数据高效组装染色体末端的完整序列

作者: aeks | 发布时间: 2026-02-05 12:05 | 更新时间: 2026-02-05 12:05

学科分类: 生物医学工程 生物工程 计算机科学与技术

随着高精度长读长(如PacBio HiFi读长)的出现,新一代组装算法彻底改变了从头基因组组装。对于二倍体基因组,这些工具能常规生成单倍型解析组装,准确重建两条单倍型,但由于PacBio HiFi读长(10-20 kb)有限,常难以处理着丝粒或长片段重复序列。为实现近T2T人类组装(即每条染色体从端到端完全解析),现有组装器(如Verkko和hifiasm (UL))需依赖至少100 kb的ONT超长读长来组装HiFi读长无法跨越的区域。然而,生成超长读长成本高,且每个人类样本需数十微克的高分子量DNA(约为标准ONT协议DNA输入量的40倍),因此临床样本或生物多样性项目中很少使用,极大限制了近T2T组装的实用性。

目前迫切需要开发算法以提高T2T基因组组装的可及性。ONT读长的长度更长且准确性快速提升,为将ONT作为唯一长读长测序技术实现T2T组装提供了可能。当前ONT测序协议产生两种读长:duplex和simplex。Duplex读长准确性与PacBio HiFi相当,组装效果好,但生成成本高且难得。因此ONT测序主要关注simplex读长,其长度更长、成本更低。然而,simplex读长的从头组装仍具挑战,因其非随机、反复出现的测序错误率较高,这与hifiasm、HiCanu等单倍型解析组装算法所假设的“测序错误是随机的”相冲突。目前,ONT超长测序只能生成simplex读长,本研究中“超长”特指超长simplex读长。

已有几种工作流程尝试用ONT simplex读长生成单倍型解析组装,它们先通过合并多个单倍型构建共识组装,再从共识中解压缩重建各单倍型。但该方法在高杂合区域和复杂重复区域可能失败,因这些区域无法在初始共识组装中准确表示。纠错工具HERRO利用深度学习校正ONT simplex读长后再输入现有组装器,虽有前景但计算密集且需高端GPU,且尚未证明仅用标准ONT simplex读长能实现近T2T组装,无法满足群体规模的T2T组装需求。

为解决现有组装方法的实际限制,本研究开发了hifiasm (ONT),可使用广泛的ONT R10.4.1标准simplex读长进行组装,无需超长测序。它引入快速纠错算法,利用读长定相克服ONT simplex读长的高反复错误率。在真实数据上,与现有方法相比,hifiasm (ONT)能以更少的时间、人力和成本组装多条端粒到端粒的染色体。

现有针对PacBio HiFi读长优化的组装器均有纠错步骤,假设错误罕见且随机(HiFi读长大致如此),但ONT simplex读长错误率更高且常反复出现(同一基因组位置多个读长出现相同错误),难以区分测序错误与真实杂合变异,导致HiFi组装器的纠错算法不适用于ONT simplex读长。

hifiasm (ONT)通过利用长读长的定相克服这一限制:真实杂合位点与附近杂合位点定相,而反复测序错误位点则不然。它使用基于动态规划的算法进行联合定相和错误识别,并考虑碱基质量分数,能将大多数ONT simplex读长校正至无错,同时在组装步骤上也有改进。

为验证hifiasm (ONT)性能,研究生成7个人类样本的标准ONT simplex读长(GIAB联盟的HG001-HG007),每个样本用1-2个R10.4 flow cell测序,目标生成非超长读长(覆盖率约50×以上),数据集平均读长N50为30 kb。标准ONT simplex读长通常比同样本PacBio HiFi读长更长,且长度分布更广,更可能获得远长于平均的读长,这对解析复杂重复区域至关重要。与ONT超长读长(N50>100 kb)相比,标准simplex读长虽短,但通量更高、成本更低、DNA输入需求减少40倍,更易获取,尤其适用于超长协议不可行的样本类型。

基准测试中,将hifiasm (ONT)与T2T组装器Verkko比较。对有亲代数据的HG001、HG002、HG005,用两者进行 trio-binning组装(Verkko需先经HERRO纠错);对无亲代数据样本,用hifiasm (ONT)的dual-assembly模式(仅用ONT读长生成部分定相但高度连续的二倍体组装)。结果显示,hifiasm比Verkko+HERRO快约一个数量级,无需GPU,组装质量更优:用标准ONT simplex读长,hifiasm成功重建9-22条端粒到端粒染色体,而Verkko+HERRO除HG001外几乎无法生成完整T2T contig。虽Verkko+HERRO在碱基准确度(QV分数)上略优,但hifiasm的错误多源于ONT读长已知的长均聚物区域局限,可通过后续抛光改善。

此外,hifiasm (ONT)用HAC模型读长也能实现可比组装质量(QV低约3个Phred单位),且可通过Dorado Polish等工具进一步提升碱基准确度。与PacBio HiFi组装相比,ONT组装连续性(N50和T2T contig数量)显著更高,多拷贝基因保留率相当,能解析HiFi组装未解决的医学相关基因(如SMN1和SMN2),虽碱基准确度和定相错误率略低,但64 CPU约半天即可完成。

用ONT超长读长时,hifiasm (ONT)仍比Verkko+HERRO快一个数量级且无需GPU,在多数质量指标上更优,成功重建HG002(41/46)、HG02818(44/46)等样本的大部分染色体。在医学相关基因解析上,hifiasm (ONT)用标准或超长读长均可成功重建SMN1和SMN2,而Verkko+HERRO即使使用超长读长也无法完全解析母源单倍型。

组装正确性评估显示,hifiasm (ONT)的ONT组装错配最少,间隙主要位于着丝粒等高度重复区域。与PacBio HiFi组装相比,ONT组装能解析更多高GA含量、低复杂度和极端GC组成区域,标准ONT组装已能解析许多HiFi组装未解决的高难度基因组区域。

总之,hifiasm (ONT)通过改进纠错方法,有效利用ONT simplex读长的长读长优势,无需复杂混合组装策略即可实现T2T组装,速度远超HERRO,无需GPU,性能优于其他组装器,使群体规模和临床样本的T2T组装成为可能。

DOI: 10.1038/s41586-026-10105-6

标签: ONT simplex读长 hifiasm (ONT) (hifiasm-ONT) 基因组组装 端粒到端粒组装