看了这几年各大顶会的投稿趋势,发现机器学习+因果推断相关的论文增长迅猛,研究热情高涨。比如ICLR 2025上剑桥大学提出的Celcomen模型,首次实现空间转录组学因果推断可识别性。
不仅如此,机器学习+因果推断在工业界的需求同样旺盛,微软、Uber等企业纷纷入场,医疗、金融、自动驾驶等领域还存在大量未解决的因果建模问题,这些可都是丰富的应用场景和创新切入点。
2025年,我们可以从计算效率、鲁棒性、跨模态融合等角度做这方向的改进创新,同时也建议优先选择医疗、经济等数据丰富、因果需求明确的场景切入,这样既能保证算法验证可行性,又符合AI4S的热点趋势。
本文整理了11篇机器学习+因果推断参考论文,都是今年发表的前沿成果,开源的代码已附,帮各位需要参考的同学节省时间。
扫码添加小享,回复“因果ML”
免费获取全部论文+开源代码

Estimation of single-cell and tissue perturbation effect in spatial transcriptomics via Spatial Causal Disentanglement
方法:论文提出了一种名为Celcomen的机器学习模型,它结合因果推断的方法,能够从单细胞和空间转录组学数据中解析细胞内和细胞间的基因调控关系,并生成虚拟的基因表达状态,帮助研究细胞和组织在受到扰动后的变化。

创新点:
- 提出了一种基于因果推断的生成图神经网络模型——Celcomen,用于解构和分析空间转录组学中的细胞内和细胞间基因调控。
- 引入了一种新的均值场理论(Mean Field Theory)近似方法,用于计算空间转录组学的分区函数。
- 设计了一种k-hop图神经网络,其网络参数被证明与问题的拉格朗日乘子等价。

Distilling heterogeneous treatment effects: Stable subgroup estimation in causal inference
方法:论文提出了一种因果蒸馏树(CDT)方法,将机器学习与因果推断结合。它先用机器学习模型估计个体处理效应,再通过决策树生成可解释的子群,兼具预测性能和可解释性。

创新点:
- 提出因果蒸馏树(CDT):结合机器学习和决策树,估计可解释的异质性处理效应子群。
- 提供理论保证:证明CDT能一致恢复最优子群,并提出基于稳定性的模型选择方法。
- 实际应用验证:在艾滋病临床试验中,CDT优于现有方法,能准确识别临床相关子群。

扫码添加小享,回复“因果ML”
免费获取全部论文+开源代码

Analyzing the relationship between gene expression and phenotype in space-flown mice using a causal inference machine learning ensemble
方法:论文通过“机器学习+因果推断”方法,利用CRISP平台分析太空小鼠肝脏基因表达数据,识别与脂质密度表型相关的基因,揭示太空飞行对肝脏功能影响的潜在机制。

创新点:
-
提出了通过CRISP平台识别高维数据中与脂质密度表型因果相关的基因。
- 通过数据增强(如标准化、对数变换等)创建多个数据“环境”,结合CRISP算法中的环境不变性概念,确保模型识别的基因在不同背景下均具有稳定预测能力。
- 通过CRISP筛选的基因显著富集于胆固醇代谢、脂肪酸代谢及NAFLD相关路径。

Comparative analysis of correlation and causality inference in water quality problems with emphasis on TDS Karkheh River in Iran
方法:论文利用机器学习和因果推断方法,分析伊朗卡赫克河50年的水质数据,通过“后门线性回归”模型,揭示了镁、钠、氯等水质参数对总溶解固体(TDS)的因果影响,为水质管理提供了新思路。

创新点:
- 首次引入因果推断模型(如“回门线性回归”)用于分析水质变量对总溶解固体(TDS)的因果效应。
- 融合机器学习算法与因果推断技术,构建了一个新颖的框架,从单纯的预测转向因果效应分析。
- 首次通过因果推断模型深入挖掘了Karkheh河流中水质变量的因果效应,为半干旱与干旱地区的水质管理提供了科学参考。

扫码添加小享,回复“因果ML”
免费获取全部论文+开源代码
