据统计,精神疾病影响着全球近五分之一的青少年,其具有较强的遗传病因,解码精神疾病的遗传原因需要深入了解发育中大脑中的基因调控机制。已有研究表明,基因调控元件(如增强子和启动子)在人脑发育和疾病中起着重要作用,但由于细胞特异性活性以及高通量检测局限性,功能性表征这些元件、研究其中DNA核苷酸变异如何导致疾病具有挑战性。
基于慢病毒的大规模并行报告基因检测(lentiMPRA)可以克服上述难题,能够在难以转染细胞(如神经元和大脑类器官)中检测数千个序列和变异的调节活性,进而训练机器学习模型来预测细胞类型特异性调控元件及功能,并进行大规模的计算机实验,以查明改变增强子活性的核苷酸变异
近日,美国加州大学旧金山分校科研人员在Science上发表了题为“Massively parallel characterization of regulatory elements in the developing human cortex”的文章,利用大脑类器官和大规模并行报告分析法,绘制了人类大脑神经元发育中功能性基因调控元件和变异的“基因图谱”。
研究团队使用深度学习和基于慢病毒的lentiMPRA,表征了原代人类妊娠中期皮质细胞和脑类器官中102,767个序列的增强子活性,发现了46,802个功能增强子和164个变异,这些变异在调节已知疾病相关基因的增强子活性方面具有等位基因差异。此外,这项研究还证明了大脑类器官作为研究早期大脑发育过程中基因调控的可行模型的潜力,并训练了深度学习模型以解码增强子活性的序列基础和上游调节因子。总之,这项工作建立了人类神经元发育中功能性基因调控元件和变异的综合目录。
为全面表征妊娠中期皮层中的人类神经发育增强子及其序列变异,研究团队设计了两个lentiMPRA文库并在原代人类皮层细胞中进行检测,即差分可及性(DA)文库和变异文库(图1)。其中,DA文库旨在表征候选细胞类型特异性增强子的调控潜力,由51,495个序列组成;变异文库包含17,069个脑QTL,这些QTL位于差异表达的跨疾病神经发育基因的100 kb范围内或与精神疾病GWAS SNP处于连锁失衡(LD)状态;还包含约15,000个非QTL序列。特别地,为优先考虑远端增强子,两个文库中的启动子重叠峰被排除。
研究团队对上述文库进行扩增,然后将其包装成慢病毒,在培养两天后用于感染孕18周(GW-18)的人初级皮层细胞;感染三天后,收集DNA和RNA进行测序。DNA测序显示,两个文库都含有超96%的设计寡核苷酸,每个寡聚体平均有50多个独特的条形码关联。
为检测增强子活性,研究团队量化了每个寡核苷酸在DNA和RNA中的深度归一化条形码丰度,计算了其批量校正的RNA/DNA比率。结合两个文库,共确定46,802个活性增强子序列和164个改变增强子活性的变异。与非活性序列相比,活性序列保守性更高,其靶基因在妊娠中期表达水平较高。上下四分位数活性序列分析显示,神经发育terms的基因本体(GO)富集,以及神经发育基因家族(如DLX、LHX和SOX)的转录因子结合位点(TFBS)的富集。上述结果表明活性序列在大脑发育中具有生物学功能。
在经质量控制的46,370个DA序列中,52%在批量lentiMPRA的原代皮质细胞中是活性增强子;基于scATAC-seq图谱预测的细胞类型特异性DA序列活性百分比范围为43%-62%(图2)。许多TFBS在scATAC-seqDA序列中显示出位置富集,其活性处于上四分位数与下四分位数之间。
几乎所有细胞类型中,活性DA序列比非活性序列更保守。在许多神经元亚型中,与非活性DA互作基因相比,与活性DA互作的基因表达量更高。此外,星形胶质细胞/少突胶质细胞前体、RG、小胶质细胞等的活性DA中,TFBS数量更多。上述结果表明,lentiMPRA中DA序列的活性与匹配细胞类型中的基序含量和靶基因表达有关。
为验证lentiMPRA中活性DA的细胞类型特异性活性,研究团队选择了11个具有高MPRA活性的DA序列,检测其增强子功能。结果显示,上述11个DA序列均能驱动皮层细胞中的GFP表达,其中三个(EN-1、ulEN-2 和 dlEN-2)在预期细胞类型中显示出增强子活性,并表现出与scATAC-seq一致的细胞类型特异性。
在变异文库中,8029个变异至少有一个等位基因显示出增强子活性,其中164个变异为差异活性变异(DAVs),显示出显著的等位基因效应。26个DAV位于具有GWAS SNP的LD中,138个DAV在差异表达疾病基因的100kb范围内。
研究团队将上述DAV数据与先前研究结果进行比较,发现lentiMPRA可以识别功能变异,同时强调了报告基因活性和内源性基因表达之间的差异。此外,通过对164个不同活性的DAV进行解析,发现34个DAV中替代等位基因改变了至少一个基序;与非DAVs相比,DAVs表现出更多的中断。
研究团队使用各种脑细胞类型和成人脑eQTL染色质相互作用数据预测了DAV的假定靶基因,发现48个DAVs具有带有基因启动子的染色质环,其中8个是互作基因的eQTL;许多靶基因是已知的精神疾病和神经疾病的风险基因或易感基因。综上,lentiMPRA可为已知疾病基因提名候选因果变异,并可用于优先考虑影响疾病相关位点调节活性的变异。
已知皮层类器官包含发育中人类前脑的许多细胞类型,为评估类器官的MPRA“适用性”,研究团队在10周龄皮质类器官中测试了lentiMPRA文库,并通过免疫染色、批量RNA-seq和单细胞RNA-seq验证了相关细胞类型标志物的表达(图4)。结果显示,观察到重复之间的高度相关性,阳性对照组增强子活性始终高于阴性对照组,证实了类器官数据的高质量。
研究团队比较了类器官和原代细胞之间的RNA/DNA比率,发现两个文库之间存在高度相关性。此外,大多数类器官活性序列在原代细胞中也具有活性;活性DA序列在类器官与原代细胞中高度一致,表明脑类器官是一种研究前脑增强子活性和基因表达的理想的体外模型。
接下来,研究团队检查了类器官和原代细胞之间DAV活性的一致性,发现两者之间存在一定程度的一致性,但DAV活性的效应大小高度相关。基序富集分析显示,类器官特异性活性的DA序列富含NKX2.1、RUNX、BCL6和ASCL2结合位点,而原代特异性活性的DA序列富含GLIS3、STAT6、EHF和HNF1B基序。
图4. lentiMPRA结果在大脑类器官和原代皮质细胞中的比较
研究团队利用lentiMPRA数据设计了一种深度学习回归模型,通过建模增强子活动解码序列变异的调节机制,表征发育中前脑中的增强子代码。该模型结合了一个单卷积层和两个循环层,以学习序列变异如何调节活性;通过使用重复平均RNA/DNA比率作为回归目标变量,对DA和变异文库进行训练(图5)。在4号染色体上,DA模型和变异分别实现了0.82和0.78的Pearson相关性。
此外,研究团队还进行了大规模的计算机诱变(ISM)研究,以量化单个核苷酸变异如何影响模型预测(图5)。结果显示,许多相邻的合成ISM变异具有更大的活性效应;活性增加的变异经常为转录激活因子创建突变结合位点,或突变在妊娠中期表达的抑制因子的结合位点,而活性降低变异则相反。所有序列都含有增加或减少的等位基因,在大多数情况下,ISM绝对得分最大的两个变异对活性的影响相反。综上,该模型可用于揭示MPRA中不存在的变异如何改变增强子活性和TF结合,或设计具有精确调节活性水平的细胞类型特异性增强子。
图5. lentiMPRA活性的序列决定簇可以通过深度学习进行建模综上所述,基因调控元件对人脑发育和神经发育障碍有重要影响,研究团队将lentiMPRA和深度学习相结合,评估了发育中大脑皮层和大脑类器官中的数千个调节元件。该研究提供了大量功能性人脑发育增强子和变异目录,并创建准确预测细胞类型特异性调控区域和变异效应的深度学习模型,展示了大脑类器官在妊娠中期测试调节活性的可用性。这项工作凸显了使用原代细胞培养、类器官、MPRA和深度学习来研究人类大脑发育中涉及的调控元件和变异的效用。
Deng C, Whalen S, Steyert M, et al. Massively parallel characterization of regulatory elements in the developing human cortex. Science. 2024;384(6698):eadh0559. doi:10.1126/science.adh0559https://www.science.org/doi/10.1126/science.adh05599月7日,第六届精准医疗与基因测序大会将在北京协和学术会堂隆重开启。届时,众多业界专家、医疗工作者、产业同仁将分享最新研究成果和行业见解。
(点击下方图片了解更多会议信息)
快点亮"在看”吧