2025 年 10 月 29 日, Chen LAB等(团队详情在文末)在《Nature Computational Science 》上见刊了一篇题为“Integrative deep learning of spatial multi-omics with SWITCH”的研究论文,其中指出空间组学技术的进步使得能够在多个生物学层面进行空间分辨的测量。然而,获取共测定的多模态数据成本高昂,限制了相关研究的开展。这凸显出开发计算方法以整合非配对的空间多组学数据,并在单模态数据上实现跨模态预测的必要性。由于通常信噪比较低,空间组学的整合面临挑战。本文介绍了SWITCH(基于循环映射协调的空间加权多组学整合与跨模态转换),这是一种用于空间多组学整合的深度生成模型。SWITCH提出了一种循环映射机制,在无需额外配对数据的情况下生成可靠的跨模态转换结果。这些跨模态转换结果作为伪配对数据,提供了额外的信号支持。系统性评估表明,SWITCH在整合准确性方面优于现有方法,并实现了更精确的空间结构域划分,能够以更高分辨率解析大脑皮层结构。跨模态转换的可靠性得到了验证,有助于开展多种下游分析,如差异分析、轨迹推断和基因调控网络推断(文章较长(可到总结-概述-分析方法最后部分)文章数据分析复现代码实例在文末)。
注:本文涉及的公式及函数可以直接复制公式到LaTeX编辑器查看具体公式,我这边推荐:(https://arachnoid.com/latex/或 https://www.quicklatex.com/)🤓🤓
简介
单细胞多组学技术的进步极大地提升了我们研究多个组学层面基因调控过程的能力。然而,组织解离过程会导致空间背景信息的丢失,而空间背景对于理解细胞过程至关重要。为此发展了空间转录组学技术,并逐步扩展到包括空间表观基因组学和空间蛋白质组学在内的空间多组学领域。尽管已有技术能够在一个组织切片内实现多种组学的空间分辨测量,但相较于单组学方法,其成本更高,且在分辨率和细胞通量方面存在局限,导致当前的空间组学数据大多仍局限于单一模态。因此,迫切需要计算方法来高效整合非配对的空间多组学数据集。已有多种方法被提出用于整合非配对的单细胞多组学数据,例如Seurat V3、LIGER、bindSC、GLUE、SCALEX、SIMBA、MaxFuse、scConfluence和Monae等。然而,这些方法均未利用空间信息,而空间信息对于准确识别空间结构域至关重要。
此外,由于这些方法主要针对单细胞组学设计,未能充分考虑空间组学固有的低信噪比特性,尤其是在转录组以外的其他组学模态中更为明显。这种较高的噪声可能导致整合结果错误或失败,限制了对空间结构域的精确划分。此外,共测定空间多组学技术的局限性也凸显出开发预测方法的必要性,即能够从单模态数据中推断出全面的多组学信息。以往的方法如JAMIE、MultiVI和scButterfly等,依赖额外的跨模态配对或细胞类型信息,将不同模态嵌入统一空间,从而实现有监督的跨模态转换。然而,配对信息或细胞类型信息往往难以获取,且尚不清楚这些转换方法是否能有效地从配对数据推广到单模态数据。
为应对上述挑战,作者提出了SWITCH(基于循环映射协调的空间加权多组学整合与跨模态转换),这是一种深度生成模型,旨在将非配对空间多组学数据的整合与跨模态预测统一于同一框架中。SWITCH采用图注意力网络(GATs)学习各模态的低维嵌入,随后通过两阶段对齐策略进行整合。为有效应对空间组学数据中信噪比较低的问题,模型通过迭代生成伪配对数据以引入额外的监督信号,从而实现高质量的数据整合与精准的空间结构域划分。同时,模型引入循环映射机制,以确保在整个优化过程中跨模态转换的一致性与可靠性。通过对多个数据集的分析,作者证明了SWITCH在整合空间组学数据方面优于现有方法。系统性评估验证了SWITCH在无监督条件下跨模态转换的有效性,支持多种下游分析应用。
结果概况
SWITCH框架
SWITCH以不同模态的特征矩阵和空间坐标作为输入(图1)。对于每种模态,模型基于空间坐标构建空间邻近性图,并利用图注意力网络(GAT)编码器学习低维嵌入。随后,模态特异的概率解码器将这些嵌入映射回原始特征空间。对齐过程分为两个阶段:首先通过对抗学习实现初步对齐,该过程由基于知识的特征图(“引导图”)进行指导,该图建模了不同组学层之间的调控关系,以确保生物学上合理的对齐;接着,模型通过对齐后的嵌入进行跨模态解码生成伪配对数据。通过最小化伪配对数据与原始嵌入之间的差异,模型获得额外的监督信号以优化对齐效果。这些伪配对数据会根据优化后的对齐结果进行更新,并用于下一轮迭代。通过这种迭代优化机制,SWITCH能够在无需真实配对数据的情况下,实现空间组学数据的精确整合和可靠的跨模态转换。为确保训练过程中伪配对数据的准确性,SWITCH引入了循环映射机制,即将伪配对数据重新编码并投影回原始模态,以保证转换过程的一致性。
图1 | SWITCH框架结构示意图。SWITCH为每种模态构建空间邻近图,并利用模态特异的图注意力网络(GAT)编码器生成细胞状态的低维嵌入。概率化解码器将这些嵌入重构回各自的特征空间。对齐过程包含两个迭代阶段:(1)基于知识驱动的特征图进行对抗性对齐;(2)通过最小化原始嵌入与跨模态转换生成的伪配对之间的差异进行优化。循环映射机制通过对跨模态转换结果进行重新编码并逆转回原始模态来验证其准确性,从而在无需配对数据的情况下确保可靠的跨模态转换。该图由BioRender.com绘制。
SWITCH在空间多组学整合中的性能评估
作者首先使用小鼠E13胚胎的空间ATAC–RNA-seq数据集评估SWITCH的整合性能,该数据集在同一组织切片上同时检测了基因表达和染色质可及性。作者将原始配对数据人为拆分为非配对形式,并将SWITCH与九种前沿方法(Seurat V3、GLUE、Monae、SCALEX、MaxFuse、scConfluence、SIMBA、bindSC和LIGER)进行了比较。原始研究基于苏木精-伊红染色提供了组织解剖注释,作为评估的金标准(图2a)。有效的空间多组学整合需要在不同模态间正确对齐空间位点,同时准确识别出共有或模态特异的空间结构域。SWITCH在这两方面均表现出优越性能,不仅实现了不同组学层面的统一对齐,还能在两种模态中精确划分一致的结构区域。它是唯一能在两种模态中均成功识别出背根神经节和脊髓结构的方法(图2b和补充图1)。相比之下,其他方法存在明显局限:Seurat和SCALEX仅能整合少量位点;GLUE和Monae难以在ATAC模态中检测到关键结构;其余方法大多只能对齐和划分前脑与中脑区域,且输出结果伴随大量噪声(补充图1)。
图2 | SWITCH整合性能的基准评估。a,E13小鼠胚胎的解剖学注释。DRG,背根神经节。b,小鼠胚胎数据的空间分布图,显示不同方法识别的结构域。图中标注的标签对应SWITCH的结果,其他方法的聚类颜色和结构可能不完全对应。c,不同方法在五次重复实验中的组学混合评分与生物学特征保留评分。d,不同方法的整体整合评分,由生物学特征保留(占60%)和组学混合(占40%)的加权综合计算得出(n = 5次重复,使用不同随机种子)。e,各方法的FOSCTTM和FOSKNN评分(n = 5次重复,使用不同随机种子)。f,利用艾伦脑图谱对小鼠脑冠状切片主要解剖结构的注释。g,小鼠脑组织数据的空间分布图,显示不同方法识别的结构域。图中标注的标签对应SWITCH的结果,其他方法的聚类颜色和结构可能不完全对应。h,各方法Moran’s I评分的箱线图(n = 16个聚类)。箱线图中,中心线代表中位数,上下 hinges 分别代表第一和第三四分位数,须线延伸至1.5倍四分位距,超出须线的数据点单独标出。i,各方法的组内相关系数(ICC)。j,各方法的FOSCTTM和FOSKNN评分(n = 5次重复,使用不同随机种子)。误差线或阴影区域表示均值±标准差。
在定量评估中,从组学混合度和生物变异保留度两个维度对整合性能进行评价,每个维度采用三种独立指标衡量。在所有重复实验中,SWITCH在两方面均优于其他方法,综合得分比第二名高出59%(图2c,d和补充图5a,b;各指标详情见补充章节1)。此外,SWITCH在无监督的Moran’s I分数和组内相关系数(ICC)上也表现最佳,这两个指标分别反映聚类结果的空间自相关性和簇内同质性(补充图5a)。为进一步精细评估整合性能,作者采用FOSCTTM(真匹配更近的样本比例)和FOSKNN(真匹配位于k近邻内的样本比例)来评价位点级别的对齐精度。理想情况下,不同模态中原本配对的位点应在联合嵌入空间中彼此靠近,因为它们代表相同的生物学状态。因此,FOSCTTM值越低、FOSKNN值越高,表明对齐越准确。在所有重复实验中,SWITCH在两项指标上均优于其他方法,FOSCTTM比第二名改善46%,FOSKNN提升137%(图2e)。
接下来,作者在一个来自空间CUT&TAG–RNA-seq的小鼠P22脑组织数据集上对SWITCH进行了性能评估,该数据集在同一组织切片中检测了RNA和H3K27ac(组蛋白H3第27位赖氨酸乙酰化)信号。由于缺乏现成的注释信息,作者利用艾伦脑图谱参考数据对主要解剖区域进行注释,包括大脑皮层(ctx)、胼胝体膝部(ccg)和侧脑室(vl;图2f)。与之前的胚胎数据集相比,该数据集具有更高的空间分辨率,但信噪比更低。在此条件下,SWITCH展现出更为显著的优势,能够准确地在两种模态中划分出主要的解剖结构(图2g)。值得注意的是,SWITCH精确地捕捉到了皮层的分层结构,包括第1层(15-ctx)、第2/3层(8-ctx)、第4层(13-ctx)、第5层(5-ctx)和第6层(10-ctx)(图2g)。这种精细的分区精度超过了所有对比方法,包括原始研究中的分析结果。此外,这些皮层层级结构在均匀流形近似与投影(UMAP)嵌入图中也得到了良好体现,表明模型充分保留了生物学变异信息(补充图2b)。而其他所有方法均引入了大量噪声,仅能识别出少数结构,例如胼胝体膝部(图2g和补充图2a)。
这一结果在Moran’s I和组内相关系数(ICC)得分中也得到进一步验证(图2h,i)。在位点级别的对齐精度方面,SWITCH再次表现最佳,FOSCTTM指标比第二名提升81%,FOSKNN指标提升249%(图2j)。作者进一步将分析扩展到另一个类似的P22小鼠脑数据集,该数据集共测定RNA和H3K4me3(组蛋白H3第4位赖氨酸三甲基化),以及一个来自空间RNA–ATAC-seq的P21脑组织数据集。在这两个数据集中,SWITCH在可视化效果和定量指标上均表现出更优的性能(补充图3、4和6a,b)。作者还将SWITCH与配对整合方法(包括SpatialGlue和COSMOS)进行了比较,发现SWITCH在结构域识别能力上达到了相当的水平(补充图7)。此外,SWITCH对超参数变化表现出良好的鲁棒性,在所有基准测试中,使用默认参数设置即可获得接近最优的性能(补充图8)。
跨模态补全及其不确定性评估
作为一种生成模型,SWITCH能够在无需配对数据的情况下补全缺失的模态。作者使用人为拆分的胚胎空间ATAC–RNA-seq数据集评估其跨模态补全性能,即从基因表达数据预测染色质可及性,反之亦然。补全的基因表达值与实测值之间的皮尔逊相关系数为0.41,补全的染色质可及性与实测值的相关系数为0.22,对于二值化的染色质可及性,其受试者工作特征曲线下面积为0.28(图3a,b和补充图9a)。受先前研究启发,作者认为这种相对较低的相关性可能源于空间组学数据本身的低灵敏度和高噪声。参照近期研究中的处理方法,作者对原始数据进行了平滑处理以缓解这些问题。结果如预期所示,补全结果与平滑后的数据表现出高度相关性,基因表达的皮尔逊相关系数达到0.87,染色质可及性为0.71(图3c)。
图3 | SWITCH实现可靠的跨模态补全与不确定性评估。a,SWITCH补全的RNA数据与实测RNA数据对比,所有数值经对数转换。b,SWITCH补全的ATAC数据与实测ATAC数据对比,所有数值经对数转换。c,SWITCH补全值与平滑处理后的RNA和ATAC实测值对比,所有数值经对数转换。d,不同结构域簇中补全不确定性的箱线图(n = 10,659,438)。箱线图中,中心线代表中位数,上下 hinges 分别代表第一和第三四分位数,须线延伸至1.5倍四分位距。e,补全误差与补全不确定性之间的关系,所有数值经对数转换。紫色框标示出低不确定性但高误差的数据点。f,e图中紫色框内数据点的二值化补全与实测可及性比较(n = 21,102),以及观测值为1(右上)和0(右下)时的平滑二值化可及性。箱线图中,中心线为中位数,上下 hinges 为第一和第三四分位数,须线延伸至1.5倍四分位距。g,表达量(左)和可及性(右)的补全值与实测值之间对数倍数变化(logFC)的比较。h,基于补全表达(左)和补全可及性(右)对眼区结构域进行差异分析的结果。在实测数据中可检测到的特征以绿色显示,未检测到的以红色显示。i,Vax2基因的实测与SWITCH补全表达值。j,Six3os1基因转录起始位点(TSS)的实测与SWITCH补全可及性值,以及Six3os1基因的实测表达值。
此外,SWITCH为其补全结果提供不确定性估计,使用户能够评估其在下游分析中的可靠性。由于不确定性受基因表达水平和染色质可及性水平的显著影响,作者重点关注了二值化可及性的不确定性估计。首先计算了不同结构域簇内的补全不确定性,发现眼区和中脑区域的不确定性高于平均水平,而结缔组织和肌肉组织的不确定性较低(图3d和补充图9b)。这一现象是合理的,因为在发育过程中,眼区和中脑通常具有更高的染色质可及性。模型估计的不确定性与预测误差之间存在显著正相关,表明不确定性可作为评估预测质量的参考指标(图3e)。值得注意的是,作者发现一小部分补全结果(约0.2%)表现出低不确定性但存在高补全误差(图3e,紫色框内数据点)。这表明模型对这些预测高度自信,但预测值与观测值几乎相反(图3f,左图)。为探究这些差异,作者检查了原始观测值和平滑后的可及性值,发现平滑后的值与SWITCH的补全结果一致,提示SWITCH预测中那些低不确定性却高误差的案例,可能对应于原始数据中的假阴性或假阳性信号(图3f,右图)。

为评估补全数据在下游分析中的有效性,作者基于SWITCH的补全结果进行了差异分析。补全数据与观测数据的对数倍数变化值表现出强相关性,基因表达和染色质可及性的斯皮尔曼相关系数分别为0.64和0.51(图3g)。当限定于高置信度数据点(q值 < 0.01)时,相关性进一步增强,基因表达达到0.87,染色质可及性为0.59(补充图9c)。以眼区结构域为例,差异分析中排名前五的显著差异表达基因均与眼部发育相关(图3h,左图)。尽管这些基因在实测表达数据中可被检测到,但其信号受到显著噪声干扰(例如Vax2;图3i,左图)。相比之下,SWITCH补全的表达数据精确恢复了这些信号,在眼区表现出更强的富集特征(图3i,右图)。类似地,排名前五的显著差异可及峰也与眼部发育相关,其中两个峰在实测数据中无法检测到(图3h,右图)。位于chr17:85607669-85608247的峰对应于Six3os1基因的转录起始位点(该基因为眼部发育基因Six3的调控因子),在实测数据中几乎完全被噪声掩盖,但在模型补全的可及性数据中表现出清晰的特异性,且与Six3os1的表达模式高度一致(图3j)。作者进一步将SWITCH与四种前沿的跨模态预测方法(JAMIE、MultiVI、scButterfly和Monae)进行了比较。在两个数据集上的四项转换任务中,SWITCH在所有指标上均持续优于其他方法(补充图10)。
为评估跨模态细胞类型分布不平衡对补全性能的影响,作者进行了两项额外的扰动实验。在第一项实验中,移除了眼区结构域的基因表达数据;在第二项实验中,移除了该区域的染色质可及性数据。尽管缺失了眼区的表达信息,SWITCH的补全结果仍与实测值保持良好相关性,与原始数据和平滑后数据的皮尔逊相关系数分别为0.39和0.84。进一步分析发现,模型在眼区以外位点的补全性能保持稳定,但在眼区内部的补全值系统性地低于完整数据集下的结果,表明模型在缺乏直接证据时会采取更为保守的预测策略(补充图11a)。第二项实验也观察到类似趋势,补全的可及性数据与原始数据和平滑数据的皮尔逊相关系数分别为0.21和0.69(补充图11b)。将分析扩展至其他结构域移除情景时,也呈现出一致的趋势(补充图12)。此外,在这些不平衡条件下,SWITCH仍保持稳健的整合性能,整体准确性仅有轻微下降(补充图13)。
跨模态补全支持的下游分析
前述实验均在人为拆分的非配对数据集上进行,可能存在一定偏差。为此,作者将SWITCH应用于两个基于微流控索引的共测序空间ATAC与RNA测序小鼠胚胎数据集,即使用一个组织切片的基因表达数据与另一个切片的染色质可及性数据进行整合。原始研究基于形态学特征提供了注释,作为评估的金标准(图4a)。从可视化结果看,SWITCH恢复出的空间结构域与真实注释高度吻合(图4b)。UMAP图显示不同组学数据层实现了有效混合,且结构域簇边界清晰(图4c)。由于缺乏单个位点的精确标签,作者采用组内相关系数(ICC)和Moran’s I对结构域识别性能进行定量评估。SWITCH在两项指标上均优于其他方法,表明其识别的结构域内部同质性更高,噪声更少(图4d和补充图14a)。为验证补全数据的准确性,作者对补全的表达数据进行了差异表达分析。每个结构域簇中排名前30位的差异表达基因的基因本体论分析结果与其已知生物学功能高度一致(补充图15a)。类似地,作者利用补全的可及性数据进行差异可及性分析,并对结构域特异性峰进行基序富集分析(补充图15b)。富集到的基序及其关联的转录因子表现出细胞类型特异性,且与已知的调控程序相符。
图4 | 非配对小鼠胚胎数据中的跨模态补全支持多样化的下游分析。a,小鼠胚胎主要结构区域的解剖学注释。DPallm,背侧大脑皮层的套层区;DPallv,背侧大脑皮层的脑室区。b,小鼠胚胎数据的空间分布图,显示SWITCH识别的结构域。c,基于SWITCH生成的潜在空间计算的UMAP图,位点按模态和结构域着色。d,各方法的Moran’s I评分(n = 12个聚类)和组内相关系数(ICC)。箱线图中,中心线代表中位数,上下 hinges 分别代表第一和第三四分位数,须线延伸至1.5倍四分位距,超出须线的数据点单独标出。e,显示皮层发育轨迹的UMAP图(左),以及将该轨迹映射到空间图上的结果(中、右)。f,基因表达随拟时序变化的热图,展示实测与补全结果。g,基因Pax6、Eomes和Tbr1在拟时序中的动态变化。h,染色质可及性(左)及其关联基因(右)的热图,行按可及性进行聚类。i,Dpallm区域的基因调控网络(GRN)子图,展示Neurod1的一级和二级靶基因。TG,靶基因。图a经许可改编自参考文献12,Springer Nature Limited。
随后,作者聚焦于小鼠胚胎大脑皮层的发育过程,利用Monocle3推断皮层区域(结构域4和6;图4e,左图)的发育轨迹。通过将位点的拟时序映射回其空间位置,作者在两种模态中均观察到从脑室区到皮层板的一致时空变化模式,这与当前研究认知相符(图4e)。为验证补全的表达数据是否能捕捉拟时序中的动态变化,作者
首先利用RNA模态的表达数据鉴定出一系列随拟时序变化的基因,并发现这些基因在ATAC模态补全的表达数据中呈现出相似的变化趋势(皮尔逊相关系数0.98)(图4f)。例如,放射状胶质前体细胞标志基因Pax6在皮层发育早期高表达,随着发育进程逐渐下调;中间前体细胞标志基因Eomes在发育中期表达升高;而终末神经元标志基因Tbr1在发育过程中表达持续上升,并在后期达到峰值(图4g)。这一表达模式与皮层发育过程中细胞谱系从放射状胶质细胞经中间前体细胞向终末神经元转变的过程一致。
通过补全缺失的表达和可及性数据,SWITCH能够系统性地识别峰-基因关联。高度相关连接(皮尔逊相关系数 >0.45)的可视化结果显示出其一致性和结构域特异性(图4h)。进一步整合这些峰-基因连接与峰-基序连接,可构建基因调控网络(GRN)。以DPallm区域为例,作者提取了以Neurod1为核心的调控子网络(图4i)。该网络中包含了多个已知的调控关系,例如Neurod1对Bhlhe22的调控,以及Neurod2对Cux2和Satb2的调控。值得注意的是,作者的网络揭示了一条级联调控通路,即Neurod1通过Bhlhe22调控Neurod2。这一机制得到了先前研究的间接支持:Neurod1激活后一天内即可快速诱导Bhlhe22表达,而Neurod2的表达则在三天后才开始上升。尽管SWITCH在整合真实非配对数据上取得了成功,但在整合相似度较低的模态时仍可能面临挑战。为在这些情况下定量评估对齐质量,作者开发了一种称为“整合一致性分数”的指标,该指标基于生物学先验知识来评价对齐的准确性。该指标首先在四个配对数据集上得到验证,当位点被随机错配以模拟错误对齐时,分数显著下降(补充图16a)。在不同发育阶段的小鼠胚胎数据集中,随着两种模态所处发育阶段差距增大,该分数也随之降低(补充图16c–e)。
空间转录组与单核ATAC-seq数据的整合
空间组学技术作为新兴领域,其在分辨率、通量和成本效益方面仍落后于单细胞测序。一种实用的策略是将两者结合,发挥各自优势。以往研究主要集中于整合空间与单细胞转录组数据,而SWITCH则能够实现跨组学层面的数据整合。此外,通过支持跨模态转换,SWITCH可将单模态空间数据拓展为多组学数据,从而支持更全面的下游分析。本部分中,作者将SWITCH应用于整合来自成年小鼠冠状脑组织的空间转录组(ST)数据(采用Stereo-seq技术生成)与来自相似组织的单核ATAC-seq数据(图5)。UMAP图显示,两种模态的数据实现了有效混合,同时不同细胞类型保持清晰分离(补充图18a)。原始ATAC数据提供了细胞的采样区域信息,使作者能够通过比较采样区域与其对应的细胞类型组成来评估对齐准确性。例如,来自B区域的细胞主要注释为皮层第2/3层和第5层兴奋性神经元(EX L2/3和EX L5);来自G区域的细胞主要注释为中脑和丘脑区域的兴奋性神经元(EX Mb和EX thalamic;补充图18b)。进一步结合艾伦脑图谱进行验证,确认SWITCH准确捕捉到了主要的解剖结构,包括皮层第1至第6层(L1–L6)、纤维束以及海马区CA1、CA3和DG等区域(图5a,b)。
图5 | SWITCH整合空间转录组与单细胞ATAC数据以推断染色质可及性的空间分布。a,基于艾伦脑图谱对小鼠脑冠状切片的注释。b,通过SWITCH整合空间转录组与单细胞ATAC数据所识别的空间结构域可视化结果。c,空间转录组中实测的基因表达(左)与SWITCH补全的相应转录起始位点(TSS)处的可及性(右)。d,选定转录因子(TF)的实测表达水平(左上)与基于SWITCH补全可及性推断的活性得分(右上),以及来自艾伦脑图谱的小鼠脑冠状切片相应区域的原位杂交(ISH)图像(下)。
接下来评估SWITCH的补全性能,重点关注将ST数据中的基因表达转换为染色质可及性(图5c)。由于缺乏真实值,作者利用一个外部的小鼠脑组织单细胞多组学配对数据集(同时检测RNA和ATAC)进行交叉验证。以RNA模态为共享锚点,通过Seurat将单细胞ATAC信号迁移至Stereo-seq数据。比较迁移结果与SWITCH补全的可及性值,二者皮尔逊相关系数为0.45。考虑到单细胞ATAC数据固有的技术噪声,在迁移前进行k近邻平滑处理后,相关性提升至0.65(补充图19)。作者进一步分析了补全染色质可及性的空间分布模式,并与邻近基因的表达模式进行比较。在某些情况下,基因在特定区域富集,但补全的可及性未显示明显定位(如Ddc基因);另一些情况下,即使基因未在特定区域富集,补全的可及性仍表现出清晰的空间模式(如Akap6基因)。仅有少数基因(如Lamp5和Cldn11)在两种模态中表现出一致的空间分布。这些观察结果反映了基因与调控峰之间调控关系的内在复杂性和非线性特征。作者还从补全的可及性谱中推断转录因子(TF)的基序活性得分,并与基因表达水平进行比较,发现Mef2c、Sox10和Egr3等转录因子的活性得分与艾伦脑图谱中的原位杂交(ISH)数据高度一致(图5d)。值得注意的是,转录因子Fos在表达数据中存在显著噪声,但其活性得分与艾伦脑图谱的ISH结果高度吻合。最后,作者结合实测的基因表达和SWITCH推断的染色质可及性,重构了基因调控网络(GRN)。所得网络成功捕获了多个已知的调控关系,例如Ascl2调控Car2,Mobp受Sox10调控,Tcf4调控Grik3、Csmd2和Pde10a。
讨论
尽管SWITCH主要针对非配对的空间多组学数据设计,但它也能够整合配对数据集。此类配对信息有助于模态间的对齐,并优化伪配对关系的生成,从而进一步提升整合精度。然而,引入外部配对数据时需谨慎,因为可能带来的批次效应或细胞类型差异反而会削弱预测的准确性。此外,SWITCH的概念框架也可拓展至其他相关任务,例如扰动效应预测,或组织学图像与基因表达之间的转换。SWITCH的运行基于不同模态共享一个共同语义空间的假设。当模态间对应关系较弱时(例如表观基因组与蛋白质组数据之间),这一假设可能受到挑战。一种有前景的应对策略是引入中间模态来桥接关联较弱的数据类型,例如利用转录组作为中介,以改善表观基因组与蛋白质组谱之间的整合效果。针对此类复杂场景优化SWITCH,是未来研究的潜在方向,也将增强其在多样化生物学背景下的适用性。此外,随着空间组学技术的持续发展,产生的数据通量日益增大,对SWITCH进行大规模数据集的性能优化,对其实际应用而言至关重要。
总结-概述-分析方法
随着空间组学技术的进步,生物学研究已能够对单个组织切片内的多种生物学模态(如转录组、表观基因组和蛋白质组)进行空间解析测量。然而,同时获取共剖析(co-profiled)的多模态空间数据成本高昂,且存在分辨率和细胞通量限制。因此,迫切需要计算方法来有效地整合非配对的空间多组学数据集,并从单模态数据中进行跨模态预测。现有的针对非配对单细胞多组学数据的整合方法(如 Seurat V3、GLUE、Monae 等)主要存在以下局限:它们没有利用对准确识别空间域至关重要的空间信息,并且未能充分考虑空间组学固有的低信噪比特征,这在高噪声情况下可能导致整合错误或失败。
实验设计与分析方法 (SWITCH 框架)
为了应对这些挑战,研究人员提出了 SWITCH(Spatially Weighted Multi-omics Integration and Cross-modal Translation with Cycle-mapping Harmonization),这是一个用于空间多组学整合的深度生成模型。SWITCH 旨在将非配对空间多组学数据的整合和跨模态预测作为一个统一任务来执行。
1. 模型架构与关键机制:
数据输入与预处理: SWITCH 接收来自不同模态的特征矩阵和空间坐标作为输入。
空间邻近图构建: 假设空间上相邻的点具有相似的细胞状态,模型首先基于坐标信息构建一个无向的空间邻近图。如果两点之间的欧氏距离小于预设阈值 $r$,则它们之间存在边连接。
GAT 编码器和低维嵌入: SWITCH 为每个模态配备了独立的编码器 ($f^z_m$),使用图注意力网络 (GAT) 来学习每个模态的低维嵌入(即潜表示 $z$)。GAT 能够同时表示表达模式和邻域微环境。
两阶段对齐策略:
初始对齐: 通过对抗性学习实现,该学习由一个基于知识的特征图(“指导图”,Guidance Graph)指导。该指导图对组学层之间的调控关系进行建模(例如,基于基因组邻近性连接峰和基因)以确保生物学意义上的对齐。
伪配对迭代细化: 模型通过跨模态解码对齐的嵌入来生成伪配对(pseudo-pairings)。通过最小化伪配对与原始嵌入之间的差异,模型获得了额外的监督信号来细化对齐。
循环映射机制 (Cycle-mapping Harmonization): 这是一个核心机制,用于在不需要额外配对数据的情况下产生可靠的跨模态转换。它通过对伪配对进行重新编码并将其投影回原始模态来强制执行一致性,从而确保跨模态转换的准确性。
2. 损失函数与优化目标:
SWITCH 的总优化目标 ($\mathcal{L}_{\text{total}}$) 是以下六个损失项的加权和:
重构损失 ($\mathcal{L}_{\text{recon data}}$ 和 $\mathcal{L}_{\text{recon} \mathcal{G}}$): 衡量原始数据与模型从潜在表示重构的数据之间的差异。对于 RNA-seq 和 ATAC-seq 数据,使用了负二项分布 (NB) 来建模。
对抗性损失 ($\mathcal{L}_{\text{adv}}$): 用于训练判别器以准确分类点嵌入的模态,促使编码器生成模态不变的表示。
循环映射损失 ($\mathcal{L}_{\text{cycle}}$): 通过要求循环映射的重构 ($\hat{x}_{m \rightarrow n \rightarrow m, i}$) 接近原始输入 ($x_{m, i}$),来确保跨模态转换结果对生物学状态的忠实性,并确保转换结果在目标模态内可解释。
嵌入对齐损失 ($\mathcal{L}_{\text{align}}$): 通过余弦相似度(cosine similarity)量化跨模态翻译产生的潜在变量 ($\hat{z}_{m \rightarrow n, i}$) 与原始潜在变量 ($z_{m, i}$) 之间的一致性。
KL 正则化损失 ($\mathcal{L}_{\text{KL}}$): 确保潜在变量结构良好,并与先验分布(通常是标准正态分布 $\mathcal{N}(0, I)$)对齐,以促进潜在空间的平滑性和连续性。
结果内容与性能评估
1. 空间多组学整合基准测试 (E13 鼠胚数据集):
整合优势: 在使用人工非配对的 E13 鼠胚空间 ATAC-RNA-seq 数据集上,SWITCH 在整合准确性方面优于九种现有方法。
空间域划分: SWITCH 实现了统一的组学层对齐和精确的领域划分,能够以更高的分辨率解析脑皮层结构。它是唯一能在两种模态中都识别出背根神经节和脊柱结构的方法。
定量指标: 在综合定量评估中(包括组学混合和生物学变异保留),SWITCH 的总体得分比第二好的方法高出 59%。
点级别对齐准确性: 在 FOSCTTM 和 FOSKNN 指标上,SWITCH 的性能均优于其他方法,FOSCTTM 提高了 46%,FOSKNN 提高了 137%。
2. 高分辨率数据集和鲁棒性 (P22 鼠脑数据集):
精细结构捕获: 在具有更高空间分辨率但信噪比更低的 P22 鼠脑空间 CUT&TAG–RNA-seq 数据集上,SWITCH 准确地描绘了主要解剖区域,并精确捕获了皮层的分层结构(包括皮层第 1 层至第 6 层),优于所有竞争方法。
鲁棒性: 在 FOSCTTM 和 FOSKNN 方面,SWITCH 再次取得了最佳性能,分别比第二好的方法提高了 81% 和 249%。此外,SWITCH 在其他 P22 和 P21 脑数据集上表现优越,并表现出对超参数变化的鲁棒性。
3. 跨模态填补与不确定性估计:
填补性能: 尽管对原始数据的填补相关性相对较低(RNA 0.41,ATAC 0.22),但研究者假设这源于空间组学数据固有的低敏感度和高噪声。经过数据平滑处理后,填补结果显示出高相关性(RNA 0.87,ATAC 0.71)。
不确定性评估: SWITCH 提供了填补结果的不确定性估计,可作为评估预测质量的基准。模型估计的不确定性与预测误差之间存在强相关性。
4. 跨模态填补支持的下游分析:
差异分析: 基于填补数据进行的差异分析结果与观测数据的对数倍数变化 (logFC) 值显示出强相关性(RNA Spearman 相关性 0.64,ATAC 0.51),高置信度点上的相关性更高。例如,对于眼域,SWITCH 填补的表达数据精确恢复了在观测数据中被噪声干扰的信号(如 Vax2)。
轨迹推断: 在真正的非配对鼠胚数据集上,SWITCH 实现了皮层区域的发育轨迹推断,并将假时间(pseudotime)映射到空间位置,观察到从脑室带到皮层板一致的时空变化,这与当前的生物学研究一致。
基因调控网络 (GRN) 推断: 通过填补缺失的表达和可及性数据,SWITCH 能够系统地识别峰-基因连接,并构建 GRN。例如,在 DPallm 区域,研究人员提取了以 Neurod1 为中心的调控亚网络,捕获了已知的调控关系。
整合 ST 和 snATAC-seq: SWITCH 成功将来自成年小鼠脑冠状切片的空间转录组 (ST) 数据和单核 ATAC-seq 数据进行了整合,准确捕获了主要解剖结构(如皮层分层 L1-L6、海马区域 CA1、CA3 和 DG)。
转录因子 (TF) 活性: 从填补的可及性图谱中推断出的 TF 基序活性得分与基因表达水平显示出强相关性,并通过 Allen Brain Atlas 的原位杂交 (ISH) 数据得到验证。
总结
SWITCH 通过引入循环映射机制和迭代伪配对策略,在不依赖配对数据的情况下实现了非配对空间多组学数据的精确整合和可靠的跨模态转换。其系统评估结果表明,SWITCH 在整合准确性和空间域划分方面显著优于现有方法。所生成的可靠跨模态转换(即伪配对)极大地促进了各种下游分析,如差异分析、轨迹推断和基因调控网络推断。
可以将 SWITCH 想象成一个翻译家,专门处理两种不同语言(组学模态)的古籍残卷(低信噪比的非配对数据)。这个翻译家不认识配对的词典,但它拥有两个关键工具:首先,它使用地理信息(空间坐标)作为线索,确保翻译内容描述的是同一个地方(GAT 编码器和空间图);其次,它使用一个校对循环(循环映射机制),将翻译出的文本(伪配对)再反向翻译回原文,以验证翻译的准确性和一致性,从而保证即使没有原始配对词典,也能生成高质量的翻译结果。
本研究开发了一种名为 SWITCH(Spatially Weighted Multi-omics Integration and Cross-modal Translation with Cycle-mapping Harmonization)的深度生成模型。SWITCH 旨在将非配对空间多组学数据的整合和跨模态预测作为统一任务来执行。
新开发的计算方法:SWITCH 框架
SWITCH 是一个深度生成模型,专门用于解决空间组学数据中空间信息缺失和低信噪比的挑战。其核心在于利用空间信息构建嵌入(Embedding),并通过循环映射机制 (Cycle-mapping mechanism) 在没有配对数据的情况下生成可靠的跨模态转换(即伪配对)。
1. 数据预处理与空间信息嵌入
a. 空间邻近图构建 (Spatial Neighbor Graph Construction)
方法: 假设空间上相邻的点具有相似的细胞状态。模型首先根据空间坐标构建一个无向邻近图 $G=(V, E)$,其中 $V$ 是点的集合,$E$ 是边的集合。
参数与计算: 邻接矩阵 $A$ 编码了点之间的邻居关系:
如果两点 $i$ 和 $j$ 之间的欧氏距离小于预定义的阈值 $r$,则 $A_{i,j}=1$;否则 $A_{i,j}=0$。
阈值 $r$ 可以根据数据特性灵活调整,以确保每个点都有适当数量的邻居。同时,通过设置 $A_{i,i}=1$ 来引入自环,以保持图的完整性。
b. 基于 GAT 的模态特异性编码器 (GAT-based Modality-Specific Encoder)
方法: 为每个模态 $m \in \{1, 2\}$ 配备独立的编码器 $f^z_m$。该编码器采用图注意力网络 (GAT) 来学习低维嵌入(潜在表示 $z$),这有助于同时表示表达模式和邻域微环境。
输出: 编码器将输入特征 $x_{m,i}$ 编码为 $d$ 维多元正态分布 (MVN) 的参数,即均值 $\mu_{m,i} \in \mathbb{R}^d$ 和方差 $\sigma^2_{m,i} \in \mathbb{R}^d$。
GAT 层计算 (L-1层): 模态 $m$ 中点 $i$ 的 $l$ 层嵌入 $h^{(l)}_{m,i}$ 计算如下:
$$\mathbf{h}^{(l)}_{m,i} = \text{Leaky ReLU}\left( \sum_{j \in \mathcal{N}_i} \alpha^{(l)}_{m,ij} \times (W^{(l)}_m \mathbf{h}^{(l-1)}_{m, j}) \right) \quad \mathbf{(1)}$$
其中 $\mathcal{N}_i$ 是点 $i$ 的邻居集合,$W^{(l)}_m$ 是权重矩阵。
注意力系数 ($\alpha$): 关注系数 $\alpha^{(l)}_{m,ij}$ 计算如下:
$$\alpha^{(l)}_{m,ij} = \frac{\exp (e^{(l)}_{m,ij})}{\sum_{k \in \mathcal{N}_i} \exp (e^{(l)}_{m,ik})} \quad \mathbf{(2)}$$
$$e^{(l)}_{m,ij} = \text{Leaky ReLU} \left( \mathbf{a}^{(l)\top}_m \left[ W^{(l)}_m \mathbf{h}^{(l-1)}_{m,i} \parallel W^{(l)}_m \mathbf{h}^{(l-1)}_{m, j} \right] \right) \quad \mathbf{(3)}$$
潜在变量参数化 (L层): GAT 层的输出通过线性层映射到潜在表示 $z_{m,i}$ 的分布参数 $\mu_{m,i}$ 和 $\log\sigma^2_{m,i}$:
$$\mathbf{\mu}_{m,i} = \mathbf{h}^{(L-1)}_{m,i} W_{\mu_m} + \mathbf{b}_{\mu_m} \quad \mathbf{(4)}$$
$$\log\mathbf{\sigma}^2_{m,i} = \mathbf{h}^{(L-1)}_{m,i} W_{\sigma_m} + \mathbf{b}_{\sigma_m} \quad \mathbf{(5)}$$
重参数化技巧: 为了进行反向传播,潜在变量 $z_{m,i}$ 使用重参数化技巧表达:
$$\mathbf{z}_{m,i} = \mathbf{\mu}_{m,i} + \mathbf{\sigma}_{m,i} \odot \mathbf{\epsilon}, \quad \mathbf{\epsilon} \sim \mathcal{N}(0, I) \quad \mathbf{(6)}$$
c. 模态特异性解码器 (Modality-specific Decoder)
方法: 解码器 $g^z_m$ 将潜在嵌入 $z$(来自任一模态)映射回模态 $m$ 的全维度特征空间。
分布模型: 为了考虑到原始数据中的噪声,模型没有直接重构特征矩阵,而是映射到特定分布的参数。对于 RNA-seq 和 ATAC-seq 数据,采用了负二项分布 (NB)。
特征生成过程:
$$\hat{x}_{m,i} \sim \prod_{j \in V_m} \text{NB} (\rho_{m, j},\theta_{m, j}) \quad \mathbf{(14)}$$
$$\rho_{m, j} = \text{softmax}_j (\alpha_m \odot V^\top_m z_i + \beta_m) \times l_i \quad \mathbf{(15)}$$
其中 $\rho_{m,j}$ 和 $\theta_{m,j}$ 分别是 NB 分布的均值和离散度参数。$V_m$ 是模态 $m$ 的特征嵌入,$l_i$ 是点 $i$ 的总计数(作为缩放因子)。
2. 两阶段对齐和循环映射机制
a. 初始对齐(对抗性学习与指导图)
对抗性对齐: 引入一个判别器 $D$ 来分类点嵌入 $z_{m,i}$ 的模态。
$$\hat{\mathbf{y}} = \text{softmax} (D (\mathbf{z}_{m,i};\phi)) \quad \mathbf{(8)}$$
编码器通过最小化判别器的区分能力,产生模态不变的潜在表示。
先验指导图 ($\mathcal{G}\mathcal{G}$): 为了防止语义不一致导致的错位,使用基于先验生物学调控关系的指导图来约束对齐过程。
在研究中,该图基于基因组邻近性构建,若峰与基因重叠(或在 TSS 上游 2kb 启动子区),则建立连接,设定权重 $w_{ij}=1.0$ 和正向调控符号 $s_{ij}=1$。
图节点嵌入 $v_j$ 通过专门的 GCN 编码器学习。
b. 循环映射机制 (Cycle-mapping Harmonization)
目的: 在缺乏配对数据的情况下,确保跨模态转换的一致性和可靠性。
过程: 潜在嵌入 $z_{m,i}$ 首先被翻译成目标模态 $n$ 的特征 $\hat{x}_{m\to n,i}$,然后 $\hat{x}_{m\to n,i}$ 被目标模态 $n$ 的编码器重新编码成 $\hat{z}_{m\to n,i}$,最后 $\hat{z}_{m\to n,i}$ 被反向投影回原始模态 $m$ 的特征 $\hat{x}_{m\to n\to m,i}$。
循环重构:
$$\hat{\mathbf{x}}_{m\to n\to m,i} = g^z_m ( \hat{\mathbf{z}}_{m\to n,i},V_m) \quad \mathbf{(24)}$$
伪配对迭代细化: 模型通过跨模态解码对齐的嵌入来生成伪配对。这些伪配对作为补充的监督信号,通过最小化伪配对与原始嵌入之间的差异,迭代细化对齐过程。
模型优化目标与损失函数
SWITCH 的总优化目标 ($\mathcal{L}_{\text{total}}$) 是六个加权损失项的总和。
1. 重构损失 ($\mathcal{L}_{\text{recon data}}$ 和 $\mathcal{L}_{\text{recon } \mathcal{G}\mathcal{G}}$)
目的: 衡量原始数据与模型从潜在表示重构的数据之间的差异。
数据重构损失:
$$\mathcal{L}_{\text{recon data}} = \frac{1}{2} \sum_{m \in \{1,2\}} \mathcal{L}_{\text{recon } x_m} \quad \mathbf{(17)}$$
$$\mathcal{L}_{\text{recon } x_m} = -\mathbb{E}_{q(z_m | x_m ;\psi_m)} [\log p (x_m| z_m, v_m;\varphi_m)] \quad \mathbf{(18)}$$
指导图重构损失:
$$\mathcal{L}_{\text{recon } \mathcal{G}\mathcal{G}} = -\mathbb{E}_{q(V|\mathcal{G}\mathcal{G};\psi_{\mathcal{G}\mathcal{G}})} [\log p (\mathcal{G}\mathcal{G}|V;\varphi_{\mathcal{G}\mathcal{G}})] \quad \mathbf{(19)}$$
2. 对抗性损失 ($\mathcal{L}_{\text{adv}}$)
目的: 训练判别器对点嵌入的模态进行分类,并促使编码器生成模态不变的表示。
$$\mathcal{L}_{\text{adv}} = \frac{1}{2} \sum_{m \in \{1,2\}} \mathcal{L}_{\text{adv } m} \quad \mathcal{L}_{\text{adv } m} = -\mathbb{E}_{q(z_m | x_m ;\psi_m)} \left[ \sum_{m \in \{1,2\}} y_m \log \hat{y}_m \right] \quad \mathbf{(20)}$$
3. 循环映射损失 ($\mathcal{L}_{\text{cycle}}$)
目的: 强制要求循环映射的重构 ($\hat{x}_{m\to n\to m,i}$) 接近原始输入 ($x_{m,i}$),以确保跨模态转换的准确性和对生物学状态的忠实性。
$$\mathcal{L}_{\text{cycle}} = -\mathbb{E}_{q(\hat{z}_{m\to n} | \hat{x}_{m\to n} ;\psi_n)} [\log p (x_m| \hat{z}_{m\to n},V_m;\varphi_m)] - \mathbb{E}_{q(\hat{z}_{n\to m} | \hat{x}_{n\to m} ;\psi_m)} [\log p (x_n| \hat{z}_{n\to m},V_n;\varphi_n)] \quad \mathbf{(26)}$$
4. 嵌入对齐损失 ($\mathcal{L}_{\text{align}}$)
目的: 确保原始潜在变量 $z_{m,i}$ 与跨模态转换产生的潜在变量 $\hat{z}_{m\to n,i}$ 保持一致,因为它们代表了相同的潜在细胞状态。
相似度量化: 使用余弦相似度 ($\text{dist}$)。
$$\text{dist} (z_{m,i}, \hat{z}_{m\to n,i}) = \frac{z_{m,i} \cdot \hat{z}_{m\to n,i}}{\| z_{m,i} \|\| \hat{z}_{m\to n,i} \|} \quad \mathbf{(27)}$$
损失函数:
$$\mathcal{L}_{\text{align}} = e^{-\text{dist}(z_{m,i} , \hat{z}_{m\to n,i})} + e^{-\text{dist}(z_{n,i} , \hat{z}_{n\to m,i})} \quad \mathbf{(28)}$$
5. KL 正则化损失 ($\mathcal{L}_{\text{KL}}$)
目的: 确保潜在变量 $z$ 结构良好,与标准正态先验分布 $p(z) \sim \mathcal{N}(0, I)$ 对齐,以促进潜在空间的平滑性和连续性。
$$\mathcal{L}_{\text{KL}} = \text{KL} (q (z_m|x_m;\psi_m) \parallel p (z)) + \text{KL} (q (z_n|x_n;\psi_n) \parallel p (z)) + \text{KL} (q (\hat{z}_{m\to n}|\hat{x}_{m\to n};\psi_n) \parallel p (z)) + \text{KL} (q (\hat{z}_{n\to m}|\hat{x}_{n\to m};\psi_m) \parallel p (z)) \quad \mathbf{(29)}$$
6. 总优化目标 ($\mathcal{L}_{\text{total}}$)
公式:
$$\mathcal{L}_{\text{total}} = \lambda_{\text{recondata}} \mathcal{L}_{\text{recon data}} + \lambda_{\text{recon}\mathcal{G}\mathcal{G}} \mathcal{L}_{\text{recon } \mathcal{G}\mathcal{G}} + \lambda_{\text{adv}} \mathcal{L}_{\text{adv}} +\lambda_{\text{cycle}} \mathcal{L}_{\text{cycle}} + \lambda_{\text{align}} \mathcal{L}_{\text{align}} + \lambda_{\text{KL}} \mathcal{L}_{\text{KL}} \quad \mathbf{(30)}$$
优化参数: $\lambda$ 系数是超参数,用于控制各个损失项的相对贡献。模型使用学习率 0.0002 进行训练。
研究中使用的其他分析计算方法
除了 SWITCH 深度学习框架外,本研究还使用了多种标准的生物信息学和计算评估方法:
1. 基准比较方法 (Benchmarking Methods)
研究将 SWITCH 与九种现有的最先进的单细胞多组学整合方法进行了比较,这些方法主要设计用于非空间数据:
现有整合方法: Seurat V3, GLUE, Monae, SCALEX, MaxFuse, scConfluence, SIMBA, bindSC 和 LIGER。
对于需要基因活性矩阵作为输入的方法(如 Seurat V3、LIGER 和 bindSC),基因活性分数是使用 ArchR R 包计算得出的。
研究还与配对整合方法 SpatialGlue 和 COSMOS 进行了比较。
2. 性能评估指标 (Evaluation Metrics)
用于评估整合准确性和空间域划分性能:
点级别对齐准确性:
FOSCTTM (Fraction of Samples Closer Than True Match)。该值越低表示对齐越准确。
FOSKNN (Fraction of Samples Whose True Matches Are Among Their K-Nearest Neighbors)。该值越高表示对齐越准确。
空间结构和生物变异保留:
Moran’s I 分数: 衡量聚类的空间自相关性。
ICC (Intraclass Correlation Coefficient):衡量聚类内的同质性。
Omics mixing scores 和 Biological variation conservation scores:用于综合评估整合效果。
3. 下游生物学分析方法 (Downstream Analysis Methods)
填补数据平滑: 为缓解空间组学数据的低敏感度和高噪声问题,在评估填补性能时对原始数据进行了平滑处理。
差异分析 (Differential Analysis): 使用 SWITCH 填补的数据进行差异表达和差异可及性分析。
轨迹推断 (Trajectory Inference): 使用 Monocle3 软件推断皮层区域的发育轨迹,并将假时间 (pseudotime) 映射到空间位置。
基因调控网络 (GRN) 推断: 通过整合填补的表达数据和可及性数据,系统地识别峰-基因连接,并构建 GRN。
转录因子 (TF) 活性推断: 从填补的可及性图谱中推断 TF 基序活性得分。
总结类比:
SWITCH 模型就像一个多层过滤系统,它首先通过空间图滤波器(GAT 编码器)捕获细胞的地理位置信息,确保嵌入的空间合理性。然后,它使用生物学约束过滤器(指导图)来确保不同模态的对齐具有生物学意义。最后,循环校对系统(循环映射机制)充当质量保证,通过不断地将翻译结果反向翻译回来进行检查,从而确保即使在没有配对数据这个“标准答案”的情况下,跨模态的预测结果也是高度可靠的。
论文数据分析复现(用户指南)
git clone https://github.com/zzli123/SWITCH.gitcd SWITCHconda create --name switch_env python=3.8conda activate switch_envpip install -r requirement.txtpip install torch==2.1.1+cu121 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
文献原文,同行评审和新分析方法的复现(包含分析数据和梳理好的代码)可以后台获取下载链接,关键词:251101(后台发送信息输入关键词251101,自动回复下载链接);针对研究论文中的分析,任何问题都可以留言或私信询问。
我们也创建了一个交流群,平时大家可以一起学习交流,我们也会花时间维护(欢迎大家加入交流,提问题需求):
团队信息
Chen LAB
https://faculty.tongji.edu.cn/chenguang/en/lwcg/107700/list/index.htm
https://life.tongji.edu.cn/lifeen/fd/cb/c12595a130507/page.htm
机器学习在计算生物学中的应用 || PART I || 2025 (点击扫码观看)

![]()
机器学习在计算生物学中的应用 || PART II || 2025(点击扫码观看)

![]()
空间组学的实用分析方法 || ISB-线上培训 (点击扫码观看)

![]()
通过计算阵列重建的可扩展空间转录组学 || The Chen Lab(点击扫码观看)
空间转录组学的模型和方法 || Ben Raphael || CGSI(点击扫码观看)

![]()
更多资源欢迎关注B站(关注MCBRLab )
其他参考基础模型:
Nature Methods || 大规模单细胞转录组学基础模型 || scFoundation
scGPT-spatial:面向空间转录组学的单细胞基础模型(scGPT || Nature Methods)的持续预训练
Nature || 2024 HCA || SCimilarity:一种用于大规模搜索相似人类细胞的细胞图谱基础模型-单细胞注释
Nature || 2024 HCA || 人类神经类器官的综合转录组细胞图谱-单细胞注释
Nature Genetics || 2024 || 人类乳腺细胞图谱 || 单细胞图谱能够映射成人人体乳腺的稳态细胞变化
综述:利用最优传输技术分析单细胞和空间组学数据 || Nature Reviews Methods Primers
Nature Genetics || 利用高级统计方法(潜在嵌入多元回归)解析多条件下的单细胞组学数据
Nature Methods || 综述:单细胞多组学中的小样本方法:单个数据点的重要性
Nature Reviews Genetics || 综述:单细胞多组学时代的基因调控网络推断
参考文献
Li, Z., Qu, S., Liang, H. et al. Integrative deep learning of spatial multi-omics with SWITCH. Nat Comput Sci (2025). https://doi.org/10.1038/s43588-025-00891-w