染色质转座酶可及性测序技术(ATAC-seq)可利用Tn5转座酶直接测量染色质可及性,已被广泛应用于鉴定转录因子对染色质的影响,构建细胞调控网络以及定位潜在的不同发育和疾病相关的表观遗传变化。最近,单细胞ATAC-seq技术的发展使在单个细胞中测量可及染色质成为可能,从而能够对异质组织内的稀有细胞类型进行表观基因组分析。
ATAC-seq检测活跃调节区的能力取决于测序覆盖的深度和信噪比。然而,诸如细胞或组织的整体质量、核提取方法或染色质的过度消化等技术参数都可能导致对可及性的测量减弱,限制测量全基因组染色质状态的能力,且这些问题在单细胞实验中更为严重。
为解决上述挑战,NVIDIA公司和哈佛大学的研究团队联合开发了AtacWorks深度学习工具包,可对整个基因组进行推断,提高单细胞实验的灵敏度,并显著减少运行稀有类型单细胞实验所需的时间和成本。该研究成果发表在Nature Communications上,文章题为“Deep learning-based enhancement of epigenomics data with AtacWorks”。
文章发表在Nature Communications上
AtacWorks使用ResNet(residual neural networ)架构,体系结构由多个堆叠的残差块组成,每个残差块由三个卷积层和一个跳过中间层的跳跃连接组成,然后使用包含均方误差(MSE),1- Pearson相关系数和二进制交叉熵(BCE)损失的多部分损失函数对模型进行训练(图1)。研究者使用AtacWorks来训练深度学习模型,从四种细胞类型(B细胞、NK细胞、CD4+和CD8+T细胞)中获取ATAC-seq数据集,并对数据集进行了5,000万reads读取的深度采样,以产生标准化的干净(高覆盖率)数据,使用MACS2(ATAC-seq数据的标准峰调用器)识别每个干净数据集的峰值。然后,对每个干净的数据集进行二次采样,得到多个较低的测序深度,范围从20万到2,000万reads,对于每个深度,研究者训练了一个模型,将低覆盖的ATAC-seq信号作为输入,并重建干净的ATAC-seq信号和峰值调用。
图1. ResNet体系结构示意图,来源:Nature Communications
为评估该方法的普适性,研究者通过红系细胞的ATAC-seq数据测试了模型的性能。首先对红系细胞的读数进行二次抽样,使其达到与训练数据相同的深度,对于每个测序深度,将训练后的模型应用于相应的二次采样数据集,以获得预测的高覆盖率信号轨迹和峰值调用。通过检查得到的去噪轨迹,证实了AtacWorks可识别出训练数据中不存在的细胞类型特异性峰,包括与红系细胞标记基因GYPA相邻的区域。这表明该模型学习的是染色质可及性的通用特征,而不是细胞类型的特定模式(图2)。
图2. 批量ATAC-seq数据训练和AtacWorks验证,来源:Nature Communications
为了定量评估AtacWorks产生的去噪高覆盖信号轨迹,研究者将其与干净的红系细胞信号进行了比较。结果显示,在所有测序深度上,去噪和干净信号轨迹之间的Pearson相关性、Spearman相关性和MSE基本上大于噪声和干净信号之间的相关性。接下来,研究者评估了AtacWorks从每个测序深度识别的峰,发现峰的精确召回曲线下面积(AUPRC)和接受者操作特征曲线下面积(AUROC)均优于MACS2(图3)。AtacWorks产生的输出数据质量相当于基于Pearson相关性的输入数据读取次数的2.6倍和基于AUPRC的4.2倍。
图3. 利用AtacWorks对ATAC-seq数据进行去噪,来源:Nature Communications
为了证明该方法也适用于更广泛的ATAC-seq,研究者使用AtacWorks对来自高通量单细胞ATAC-seq实验的数据进行去噪。首先从珠状分离的人类血细胞中获得了液滴单细胞ATAC-seq(dscATAC-seq)数据,并按细胞类型聚合了单细胞染色质可及性图谱。从数据集中选择了两种细胞类型(B细胞和单核细胞),通过对每种类型的细胞子集进行随机二次采样来生成有噪声的ATAC-seq信号,并在配对的干净和有噪声的数据集上训练AtacWorks模型。对于低覆盖率的训练数据集,研究者随机抽样了1个细胞(20,000 reads)、5个细胞(10万reads)、10个细胞(20万reads)或50个细胞(100万reads)。结果显示经过训练的模型提高了信号跟踪的准确性和对测序的NK细胞进行峰调用的能力,且AtacWorks仅需50个NK细胞,便可将峰值调用的AUPRC从0.2048提高到0.7008,而MACS2需要400多个细胞才能获得。此外,研究者又使用相同的dscATAC方案从小鼠大脑中获得单细胞数据,将在人类血液上训练的模型应用于从小鼠锥体和振荡神经元聚集的数据。结果显示,这两种类型的神经元,无论是在整体上还是在细胞类型特定峰值内,AtacWorks改善了信号跟踪和峰调用,这表明AtacWorks广泛适用于所有细胞类型和物种(图4)。
图4. AtacWorks可从少量细胞产生的单细胞数据中鉴定出peak,来源:Nature Communications
上述实验证实AtacWorks可以在碱基对分辨率下准确预测去噪覆盖率,研究者试图将其扩展到转录因子足迹。为了测试从低输入ATAC-seq进行足迹分析的可行性,研究者从FACS分类的人类血细胞(多功能祖细胞,CD8+ T细胞,NK细胞)获取了高覆盖的ATAC-seq数据,并通过减少轨迹平滑来保存Tn5插入的转录因子特异性模式。然后,对这些轨迹进行下采样,以降低测序深度,并为每个深度训练一个模型,用来自类似处理的HSCs的数据进行测试。并在一组跨越基因组结构蛋白CTCF的结合基序200bp的基因组区域上评估了这些模型的性能。结果显示,在所有测序深度中,AtacWorks改善了HSCs中跨越CTCF图案的信号轨迹,增强了CTCF结合的特征足迹。
在AtacWorks提供高分辨率的支持下,研究者试图调查研究稀有细胞亚群中潜在的表观遗传学变化。先前对FACS分离的骨髓单核细胞(BMMC)的单细胞研究已经在免疫表型定义的细胞群体中观察到表观遗传的异质性。虽然单细胞ATAC-seq能够通过聚合基因组特征来测量染色质的可及性,但通常没有足够的测序覆盖率来确定哪些特定的调控区域与每个分化轨迹相关。首先,研究者对FACS分离的造血干细胞进行dscATAC-seq,生成了9,974个单细胞染色质可及性谱,接下来,为了定义淋巴系和红系分化的轨迹,研究者从富含珠粒的CD34+细胞中收集了已发表的dscATAC-seq数据,并将所有单细胞图谱投影到一个共享的潜在空间中,使用UMAP进行降维可视化。结果证实,位于该区域的造血干细胞在GATA2基序的转录因子基序可及性分数和MEF2C的基因可及性分数中显示出定向信号偏倚,这两个基因分别被认为是红系和淋巴系启动的标志基因。最后,为了使用该模型生成谱系启动细胞的高分辨率染色质可及性轨迹,研究者选择了三个不同的样本(分别代表长期、淋巴系和红系启动的造血干细胞的假定群体),使用AtacWorks进行信号降噪,并可视化了谱系启动标记的基因附近的去噪染色质可及性谱图。总之,这些结果证明了深度学习在提高稀有单细胞ATAC-seq研究分辨率方面具有独特能力。
图5. AtacWorks可识别与谱系启动的造血干细胞相关的差异性调控区域,来源:Nature Communications
综上所述,该研究介绍了一种通用化的深度学习工具包—AtacWorks,可在碱基对分辨率上对ATAC-seq信号进行去噪,同时预测可访问的调控元件的基因组位置,降低收集染色质可获得性数据的成本。基于以上研究进展,预计AtacWorks将广泛提高表观基因组分析的实用性,为研究细胞异质性背后的调控机制提供一个强大的平台。
AtacWorks 工具包可从https://github.com/claraparabricks/AtacWorks获得。
参考文献:
Lal A, Chiang ZD, Yakovenko N, Duarte FM, Israeli J, Buenrostro JD. Deep learning-based enhancement of epigenomics data with AtacWorks. Nat Commun. 2021 Mar 8;12(1):1507. doi: 10.1038/s41467-021-21765-5. PMID: 33686069. 热文推荐