单细胞 | 人类单细胞数据的机器学习模型中的偏差

Basic Information

英文标题：Biases in machine-learning models of human single-cell data
中文标题：人类单细胞数据的机器学习模型中的偏差
发表日期：19 February 2025
文章类型：Perspective
所属期刊：Nature Cell Biology
文章作者：Theresa Willem | Fabian J. Theis
文章链接：https://www.nature.com/articles/s41556-025-01619-8

Abstract

Para_01

近期基于机器学习（ML）的单细胞数据科学发展使人类组织捐赠者能够在单细胞分辨率下进行分层，有望提供有价值的诊断和预后见解。
然而，这样的见解容易受到偏见的影响。
在这里，我们讨论了在基于机器学习的单细胞分析过程中出现的各种偏见，从影响样本收集对象的社会偏见，到影响单细胞数据集普适性的临床和队列偏见，以及源自单细胞测序、特定于（弱监督或无监督）机器学习模型训练的人类单细胞样本的机器学习偏见，还有在解释机器学习模型结果时的偏见。
最后，我们提供了评估和减轻偏见的方法，并呼吁努力解决偏见的根本原因。

Main

Para_01

单细胞数据集的规模最近开始达到人口水平，即涵盖数百或数千个体。
在这些规模下，首次有可能使用机器学习（ML）技术利用单细胞数据表示样本之间的变化。
如果建模的变化能反映疾病的进展或缓解，对样本变化进行建模具有诊断和预后应用。
由于已知机器学习模型会延续训练数据集中的偏见1，因此需要注意可能影响基于单细胞数据的机器学习工具的多种偏见，并反思如何减轻这些偏见。

Para_02

大量偏差已被描述，这些偏差可能以歧视性的方式影响机器学习输出，从而产生问题（有关偏差的更细致定义以及有害和较不有害偏差的示例，请参见框 1），并且作为概念，没有普遍接受的偏差定义。
遵循先前的定义，这些定义突出了偏差带来的不希望有的社会后果4,5，我们将偏差定义为机器学习模型输出的系统性扭曲，这种扭曲会导致道德上和/或社会上不希望的效果，例如歧视、误诊以及治疗不足或过度治疗。

Para_03

系统性的机器学习模型结果扭曲可能由于多种（非故意的）原因而产生。例如，由于某种特定基因型的代表性不足，训练数据可能包含该群体中的样本过少，从而无法产生可靠的输出结果，对代表性不足的群体不利。
即使使用看起来完美平衡的数据集，也可能因为历史不平等导致收集的数据偏斜，或者收集的分类数据定义过于模糊或宽泛，从而导致偏差。
这样的偏差已被证明会混淆人工智能基因组学研究，对少数群体造成不利影响，因为预测结果不够可靠。
鉴于偏差和偏差来源的多样性，需要对机器学习模型中的相关起源和类型的偏差进行敏感性评估。
本文的观点集中在与基于人类单细胞数据训练的机器学习模型相关的偏差上。
通过这样做，我们希望有助于计算单细胞基因组学社区理解从基于人类单细胞样本训练的机器学习模型获得的结果中可能出现的偏差，以及这些偏差是如何产生的，并提供方法来减轻这些偏差。

Para_04

为了识别与单细胞ML模型相关的偏差，我们首先总结了基于机器学习的单细胞基因组学领域的最新进展，并简要说明了基于人类单细胞样本的ML模型开发流程。
然后，我们通过遵循使用人类单细胞数据训练ML模型所执行的步骤来识别可能发生的偏差。
这种基于流程的偏差分析可以检查各种偏差如何相互关联和干扰，从而可能放大它们的影响并使缓解措施复杂化。
在评估基于人类单细胞数据训练的ML模型的伦理性时，所有这些偏差都应被考虑在内。 [div_box]

Recent advances in ML for human single-cell data

Para_01

电子健康记录数据，如健康状态、疾病严重程度、器官功能和实验室检测结果，是获取对临床条件变化有价值的见解的门户。
单细胞测序及其分析方法的同时发展利用了这些新获得的数据，并将其与供体的转录组学数据结合，以衡量基因的差异表达12,13,14，或细胞类型的差异丰度15,16，如何与其供体的健康状况相关。
最近，机器学习方法已出现，用于从单细胞转录组数据中建模临床协变量，例如疾病状态或严重程度17,18,19,20。
此类方法的第一代需要分析师指定一个感兴趣的协变量，并不允许进行无监督的数据探索15,17。
因此，如果数据中的结构可以通过其他测量或未测量的特征或技术因素来解释，而这些因素是分析师没有考虑到的，它们可能会被忽视。
为了解决这一挑战，最近提出了单细胞分析方法，通过生成单细胞样本的无监督嵌入来学习人类供体变异的表现。
这些所谓的患者表示方法使用大型单细胞数据集将健康个体和患者分层到多个组中，这些组捕获了表明健康状况的潜在分子差异。
他们旨在利用所生成的洞察力来确定下游分析中的诊断或预后潜力。
可用的患者表示方法包括基于最优传输的方法，如PhEMD21、PILOT22和扩散地球移动者距离23，这些方法将捐赠者之间的差异建模为将一个转录组特征转换为另一个所需的努力量。
基于变分推理的方法，如MrVi24和scPoli25，训练神经网络以嵌入细胞水平信息，纠正批次效应，并同时学习患者变异。
其他方法，如GloScope26和IDEAS27，计算人类转录组谱估计概率密度之间的发散，而MultiscalePHATE28是一种基于扩散的方法，它提供了数据在几个粒度层次上的表示。

The standard pipeline for ML models of human single-cell data

Para_01

数据收集对于典型的人类单细胞RNA测序研究通常始于诊所，在那里从患者或健康志愿者身上采集组织样本。
这些样本通常需要在实验室处理前进行储存。
目前最广泛使用的实验室协议由10X Genomics开发（文献29），在此协议中，单个细胞被分离和裂解，然后捕获mRNA。
随后，mRNA被逆转录成DNA，扩增，并用条形码标记以便通过进一步的实验步骤追踪细胞和分子的来源。
在对DNA进行测序后，测序读数被比对到参考转录组，使用细胞条形码重新映射回原始细胞，并进行计数。
计算分析通常从这一步开始，使用包含每个细胞条形码对应基因拷贝数信息的计数表。
分析师执行数据的质量控制和预处理，包括归一化、高变异性基因选择和降维，随后进行聚类以识别细胞类型并对获得的细胞簇进行注释。
预处理后的数据可以用于下游分析以获取关于基因、细胞或患者变异的信息。
偏差可能出现在衍生单细胞表示所需的任何阶段。
为了减轻与单细胞表示相关的特定偏差，关键在于将这些偏差分开。

Biases along the pipeline of ML models of human single-cell data

Para_01

各种偏差影响单细胞模型训练。这些偏差从样本收集开始，到模型结果的解释结束。
我们将这些偏差分类为社会性、临床性、队列性、单细胞测序、机器学习和结果解释偏差。
我们根据这些偏差在整个人类单细胞样本的机器学习模型管道中的出现情况进行讨论（图1和图2）。
有关如何在单一且否则非常有价值的数据库中存在多种描述的偏差，请参见框2。

Fig. 1: Biases occurring along the pipeline.

- 图片说明

◉ 沿管道发生的偏差对于人类单细胞样本的机器学习模型的特异性越来越强。

Fig. 2: Illustration of societal, clinical, cohort, single-cell sequencing, ML and result-interpretation biases relevant in ML models of human single-cell data.

- 图片说明

◉ 社会偏见源于医疗系统中的结构性不平等。◉ 临床偏见源于临床数据收集和处理中的一致性问题，这引入了变异性。◉ 队列偏见源于队列构成的偏差，包括人口统计学和临床多样性。◉ 单细胞测序偏见源于技术限制和测序方法的变异性，影响数据质量。◉ 机器学习偏见源于算法和模型参数的选择，这可能产生或放大偏见。◉ 最后，结果解释偏见源于灵活的可视化和解释工具，这些工具持续或强化偏见结论，影响下游的科学和临床见解。

[div_box]

Societal bias

社会偏见

Para_01

社会偏见是随着系统性社会行为产生的偏见，例如基于性别、性别或种族的歧视，并且深深植根于人类群体之中。
这些偏见影响了谁能够获得护理，因此，当在诊所收集人类单细胞样本时，也决定了谁能捐赠单细胞样本。
一个显著的社会偏见的例子是一个用于管理美国人口健康的ML模型，但由于医疗保健部门中存在的历史不平等，该模型对有色人种存在偏见。
类似地，其他社会偏见，包括社会经济因素，如收入、原籍国、居住地区和教育程度等，正在塑造当前的医疗保健系统，并决定哪些人群需要以及能否获得护理，从而决定了谁能或谁不能成为单细胞样本捐赠者。

Para_02

除了当前社会偏见外，过去的社會偏見也必须考慮。
对于一个人的遗传学来说，例如他们的祖先居住的地方以及他们在该地区所遵循的文化传统是很重要的。
例如，生活在提供大量淀粉类食物的地方的人们，经过几代人的演变，被发现与那些拥有其他饮食习惯的人群具有不同的基因拷贝数变异32,33。
这表明，个体之间的生物多样性是通过由各种因素（包括社会过程）造成的进化压力形成的。
尽管研究特定的代际生活方式与现代亲属的基因表达之间联系的研究仍处于初期阶段，但已有证据表明，大多数影响疾病风险的基因变异具有特定于祖先的进化起源34。
因此，在单细胞研究中考虑可能影响模型性能的社会偏见——过去和现在的——是有意义的。

Clinical bias

临床偏倚

Para_01

在诊所，在RNA样本收集的节点，通过不同的临床定义引入的临床偏见限制了最终数据集的可靠性，该数据集将作为单细胞分析的基础。
例如，样本提取的一个纳入标准可能是参与者是‘健康的’。
尽管‘健康’最初是一个模糊的概念，但组织样本捐赠者可能患有严重的临床状况，如肺癌，但仍捐赠未受疾病影响的‘健康’组织。
在其他情况下，捐赠者可能患有基因相关的合并症或被临床认为‘痊愈’。
在这种情况下，样本随后在数据库中被视为‘健康的’（或‘正常的’或‘对照的’），尽管个体特定的健康状况可能对其转录组特征产生重大影响。
另一个临床偏见的例子是在临床参数变化时触发样本收集（图2和方框2）。
例如，当COVID-19患者的病情恶化时，可能需要抽血进行检测。
如果相同的血液样本用于单细胞数据库，这可能导致在特定时间点过度采样，而不是所需的整体疾病过程的表示。
换句话说，细胞样本可能会因仅反映某些疾病状态而存在偏差，而非提供对整体状况的洞察。
即使在疾病稳定状态下采集样本，不同的取样位置——例如，从不同捐赠者的器官组织中取自哪个解剖位置——也可能引入临床偏见。

Para_02

其他需要考虑的临床偏差是，例如，其他协变量如何以意想不到的方式影响临床样本。
例如，与新陈代谢紧密相关的昼夜节律过程，在目前的单细胞研究中大多未被考虑进来35,36。
生活方式选择和社会经济影响特征，如吸烟、饮酒、心血管健康、生物年龄、压力和日晒，也可能以尚未被充分研究的方式引入临床偏差。

Cohort bias

队列偏差

Para_01

RNA样本收集后，基于机器学习的单细胞分析面临的主要挑战之一是样本量通常较小。
一些最大的单细胞研究包含数百个样本（例如，1中的982人，2中的428人或3中的284人；有关单细胞研究及其特征的更多信息，请参见动态单细胞研究数据库37）。
尽管单细胞领域的技术改进导致细胞数量呈指数增长，但2022年的一项实验中样本的中位数仅为11个37。
这限制了许多研究得出结论的能力，因为如果特定的遗传谱系代表性不足，那么针对这一特定群体的结论可能会受到影响，从而导致潜在的队列偏差（图2）。
当机器学习模型在这样的不平衡数据集上进行训练时，它们会优先学习过度代表群体的细微差别，而忽略其他群体内的多样性8。
因此，当使用这些模型来生成患者聚类时，它们在区分具有相似遗传谱系的亚群方面将更加熟练，仅仅是因为可用的数据点数量较多，而对于代表性不足的遗传谱系个体则可能无法做到这一点。
这种偏差延伸到对聚类的解释，影响了它们在为不属于过度代表群体的个体进行个性化医疗建议方面的实用性。

Para_02

此外，不同研究地点在分类数据收集实践中的差异使得难以测试潜在的人口群体表现波动，这些波动可能会延续种族主义。
基因组测序预计将会结束关于种族类别的生物学基础长期争论38,39，通过表明基因组谱系与诸如种族类别这样的社会构建不相关联9,10,40。
虽然这一争论仍在继续，但越来越多的共识认为不应使用此类分类数据来训练遗传学机器学习模型41。
然而，收集此类数据至关重要，以便在模型训练后确保某些人口群体不会意外地系统性地处于不利地位，特别是如果这些群体已经遭受边缘化42,43,44,45。
然而，分类数据收集实践似乎需要更新。
例如，在CellxGene Discover数据库（参考文献29中的图3）中，我们注意到起源区域的划分有些不清楚，并且某些群体的代表性不足；例如，有一个类别是‘非裔美国人’，另一个是‘非裔美国人或非裔加勒比人’。
这些数据类别之间的重叠使评估机器学习模型输出的公平性变得复杂，尤其是对于那些基于电子健康记录补充数据训练的模型，这些数据可能引入额外的偏见。

Single-cell sequencing bias

单细胞测序偏差

Para_01

单细胞测序，即确定数据中的每个核苷酸序列，是一个复杂的工作流程，尽管非常自动化，但仍容易出错，并且受限于所使用的硬件和软件技术。
在获得单细胞样本后，分析的第一步是利用获得的样本制备测序文库。
在此过程中，样本被解离为其细胞成分，细胞被隔离到液滴或孔中，细胞RNA被标记和捕获，然后转化为双链DNA，并通过测序接头进行富集，这些接头允许进一步处理特定片段。

Para_02

这种文库制备方法对所有细胞类型的效果并不相同（图2）。
例如，当样本中的捕获分子数量差异很大或者解离过程对某些细胞类型的影响大于其他细胞类型时，样本的细胞组成会发生变化。
例如，间质细胞在解离过程中更容易受到破坏，这会影响研究单细胞过程与由间质细胞驱动的疾病之间的可能性。
此外，技术过程可能会影响样本之间分子数量的差异，例如，当某个特定读取被错误地分配给某个细胞（所谓的索引跳跃）时47。
这类错误自然会对转录组较小的细胞状态产生过度影响（例如，T淋巴细胞），从而影响识别与这些细胞类型相关的生物过程和疾病的机会。
为了克服由于测序中的伪影或捕获读取数量不同而导致的每个细胞读取数量的差异，标准化方法被认为是单细胞流程中的关键步骤。
然而，最近学者们再次指出了这些方法的局限性48,49。

Para_03

此外，在任何测序过程中，所谓的‘批次’效应可能由于将细胞和样本分组处理而产生。
这些批次效应在与感兴趣的生物学协变量共线时会产生偏差，例如样本的解剖位置、性别或年龄。
特别是在疾病研究中，很难避免批次效应与疾病状态之间的共线性。
然而，在预处理过程中去除这种技术效应可能会同时去除生物学信号，从而影响可以从这类研究中得出的结论。

ML bias

机器学习偏差

Para_01

算法本身并不是偏差的来源，但是将机器学习方法应用于单细胞数据集等时，一个关键问题是潜在的不可控偏差放大。
源自隐藏协变量、批次效应和数据集中不平衡的人口构成的偏差可能导致模型侧重于过度代表的特征和/或人群，从而将普遍存在的偏差放大为机器学习偏差。
例如，由无监督聚类算法生成的集群可能受到观察到的患者协变量（如批次效应）以及未测量的患者协变量的影响，而不是感兴趣的生物学效应（图2）。
在监督数据分析过程中，可能会发生其他特定于该步骤和特定模型类型的扭曲。
例如，简单的线性回归容易受到异常值的影响，基于树的模型对未见过的数据范围泛化能力较差，而更复杂的模型可能会过拟合训练数据，因此对训练数据分布之外的样本也泛化能力较差，使得结果变得不可靠。

Para_02

尽管平衡准确率被应用于最小化监督模型中的此类性能缺陷，但缺乏可靠的缓解方法来应对无监督模型，目前重新采样是平衡数据集的最佳选择。然而，重新采样的组可能代表性不足，因此会损害结论的有效性。
Resampling, however, is limited in utility, as the resampled groups can be unrepresentative and hence impair the validity of the conclusions.

Result-interpretation bias

结果解释偏差

Para_01

最后，分析偏差可能会扭曲结果解释（图2）。
例如，在最近的辩论中，可调可视化方法遭到了反对。
具体而言，使用降维工具（如t分布随机邻居嵌入（t-SNE）和一致流形逼近投影（UMAP））创建的图表中细胞之间的相对距离被讨论为过度解读。
设计上，将高维数据可视化为二维的方法无法准确反映高维数据中所有固有的距离。
这些方法在二维可视化中不可避免地会丢失某些信息。

Para_02

确实，这些可视化方法可以根据算法中的随机性而不是数据的特性产生具有不同细胞类型间距离的图像，并且在这两种方法中，特定类型的细胞占据的绘图空间量是它们丰度的函数，而不是它们的相对相似性。
这些影响扭曲了可视化，并且当结果仅基于这些图表时，可能会导致解释结果时存在偏见。
需要对分析偏差进行更多的研究，并且看来显然，只有了解单细胞生物学和机器学习领域的知识，才能驾驭这些可用的非平凡工具。
这两个领域经验的潜在缺乏可能导致无意的错误和对结果中方差的误解。
特别是在基于可能存在偏差的可视化解释细胞簇和轨迹时，由于探索性研究中缺乏真实标签，很难检测到无效的推断。
此外，还存在其他类型的认知偏差，如确认偏差，这可能进一步损害结果解释。
综上所述，这可能导致发布和传播分析上存在偏见的结果。

Towards mitigating biases in single-cell model results

Para_01

基因组学在处理各种偏差方面有着悠久的历史，例如群体分层和技术性错误。
特别是在全基因组关联研究以及药物基因组学和临床研究中，大量的工作已经进行，以反思和减轻偏差。
此外，在当代机器学习会议上，越来越多地讨论偏差，尤其是与基因组数据集多样性不足相关的偏差。
像《人类细胞图谱白皮书》这样的倡议也考虑到了这一点，并声明"多样性、包容性和公平性"是该联盟的价值观。
并且断言第一份草图图谱包括每种组织至少包含20个种族多样性样本。
为了支持这些努力，我们倡导采取一些实际步骤来抵消基于人类样本训练的单细胞模型中的偏差。

Scrutinizing data categories to ensure comprehensive sampling

审视数据类别以确保全面采样

Para_01

收集用于单细胞数据库的元数据类别表现出相当大的变异性，这是由于各国在数据采集实践和类别定义上的差异所致。
此外，当地法律限制可以显著影响所收集的元数据的性质和范围。
为了减轻队列和临床偏见，必须开展跨学科对话，讨论数据类别差异，倡导收集这些元数据类别，并推进纠正不同设置下不同元数据类别所产生的影响的方法。
参与这些工作的学者必须仔细考虑与单细胞模型相关的标准，这些标准应基于数据集的潜在使用案例，并应‘跳出数据思维’，即积极考虑被省略的变量。
通过沟通对数据类别的反思，将使跨数据集检测偏见变得更加容易。

Collecting large(r) and more diverse datasets

收集更大且更多样化的数据集

Para_01

为了减轻队列偏差，数据收集者应该仔细考虑与潜在使用案例相关的 demographics 标准。
此外，单细胞数据库出版商应包括有关数据集多样性和平衡指标的报告，以鼓励贡献者生成更能代表普通人群的数据。
已建立的框架帮助数据库创建者记录和传达有关他们数据集的相关信息是‘数据集的数据表’或‘数据卡’。

Para_02

此外，还需要收集足够大的数据集以便进行这样的分解。
该领域的研究人员应该能够测试机器学习模型在单元组（例如，按血统划分）和交叉组（例如，年轻且非裔美国人血统或年长且非裔美国人血统）之间的表现是否存在显著差异。
或者，数据收集者和单细胞分析者应合作创建特别针对特定背景的数据集和模型，从而可以对其进行可靠性测试以用于预期用途。
强调协作努力，‘数据收集请求’的联邦机制将使研究人员能够集体识别代表性不足的子群体，向数据收集者传达见解，并鼓励在已识别的子群体中进行有针对性的数据收集。

Advancing covariate testing and data correction

推进协变量测试和数据校正

Para_01

临床偏倚可以通过对相应的协变量进行随机化来事后减轻。
当这不可行，或者数据集太小而无法有效地包含多个感兴趣的协变量的有效随机样本时，可以转而对效应进行建模并在数据中进行校正。
这种策略常用于纠正单细胞数据中的细胞周期效应。
类似的方法已被提出用于建模（并纠正）昼夜节律，并且可以扩展用于使用细胞数据的代谢通量模型来纠正饮食影响。
然而，需要更多的研究来确定每个协变量上影响的程度。
这项研究应考虑到基于协变量的偏差可能比在其他学科中更难检测。
例如，在人类皮肤样本的单细胞研究中，日晒损伤可能起作用。
然而，与皮肤病图像处理不同，其中日晒损伤是视觉可分类的，在单细胞数据中检测此类‘隐藏因素’需要专门的研究。
迫切需要能够检测这些‘隐藏因素’的方法，并研究偏差如何加密在潜在空间中，尤其是在它们的影响与所研究效应共线时。

Promoting further efforts in single-cell processing

促进单细胞处理的进一步努力

Para_01

技术步骤如文库制备和测序所施加的偏差是一个已知且被讨论的问题。
每个单细胞分析工作流程已经包括了步骤来减轻数据中的技术性伪影，例如归一化、质量控制和数据校正。
确实，已经有超过200种批次效应校正方法可供使用。
在数据生成过程中减轻批次效应的有前途的方法已经包括了多重策略，这些策略通过标记和汇集所有样本进行联合文库制备，从而避免不同样本受到文库生成伪影的影响。
然而，与感兴趣的生物学效应协同校正批次效应仍然是一个开放的挑战，并且选择具有最优参数设置的正确方法需要能够评估这些方法的性能。
虽然通过评价框架（如scIB52和单细胞分析中的开放问题）可以实现这一点，但这些框架依赖于描述批次效应可能来源的元数据的存在（例如，实验室协议或使用的设备）。
因此，大规模收集元数据不仅有助于解决队列偏差，也有助于减少单细胞处理偏差。
另一个特别相关的有益收集的元数据协变量是样品采集的位置。
鉴于个体间解剖学差异以及样品采集时常面临的挑战性环境，样品的解剖位置通常记录不准确。
找到标准化的方式以高分辨率记录此类解剖位置，或者开发从采样数据预测解剖位置的方法，将有助于纠正影响样品细胞组成的采样位置差异。
此外，基准测试本身可能会通过青睐次优方法引入偏差，当排名指标存在缺陷时尤其如此。
例如，在一项研究中，一种简单的方法基于传统指标优于其他流行的数据整合工具，但它扭曲了数据中的生物学结构，如发育阶段、结构和细胞关系。
动态基准测试，如单细胞分析中的开放问题，有可能通过使社区贡献能够更新指标并添加新数据集来缓解这种偏差。
总之，解决上述问题将改进现有的基准测试，并使研究人员能够选择最佳表现的工具以更有效地处理单细胞数据。

Reporting of limitations of intended-use-specific models

意向使用模型的局限性报告

Para_01

最近的一项综述建议，如果基准研究包括评估数据集中存在的偏见和缺失信息，则可以减轻偏见68。
考虑从现成训练模型的角度以依赖上下文的方式处理模型偏见的已建立框架包括通用领域的‘模型报告模型卡’81框架和特定于医疗保健的TRIPOD声明82框架。
通过创建这样的卡片或声明，开发人员收集并传达有关模型本身、其预期用途、相关人口统计因素、所用训练和评估数据以及所用指标和其他考虑因素的详细信息，并在书面文档中提供这些信息，在发布时与模型一起提供。
这是一个有价值的起点，用于识别训练所用数据中存在的偏见，并生成关于偏见的新见解；重要的是，它还提供了教育那些使用模型所创建的研究的人了解其中固有的偏见的前景。

Implementing fairness testing

实施公平性测试

Para_01

公平性指标是一种易于应用且已确立的诊断工具，用于评估不同人口群体间模型性能的潜在差异，从而评估模型的公平性。
例如，此类指标可以揭示预测模型对不同人口群体具有不同的错误率，或者将一个子群体更频繁地分配到某种特定治疗，而另一个子群体则较少。
公平性指标从预测性能的角度分析模型的整体偏差；也就是说，它们通常无法识别现有偏差的来源（例如，区分机器学习偏差和队列偏差），但它们可以作为有用的指针，指出需要进一步审查的地方。
同样，某些预测指标在子群体间的差异不一定构成有害的偏差（不同的治疗方法可能对不同的人群更有效）。
标准化这种报告能够促进子群体特定信息的快速采用，提高报告此信息的合规可能性，并促进元分析。

Para_02

一个警告是在进行公平性测试时，必须提前知道并手动选择相关的子群体。
同样地，当许多指标和许多群体组合相互比较时，分析师必须考虑多重检验校正。
在交叉公平性测试中也会出现相关问题，多个人口统计因素，如遗传祖先、性别和年龄，导致了组合上不断增加的子群体数量，给公平性测试带来了显著的统计挑战。
尽管如此，我们鼓励分析师通过定义、持续更新和监控广泛的公平性测试场景，将（交叉）公平性测试直接整合到他们的模型构建流程中，这遵循了单元测试的最佳实践。
然而，在计算上对检测到的偏差进行补偿时，至关重要的是确保改善一个群体的偏差不会导致整体模型性能下降，也不会损害另一个群体。
此外，公平性测试的非统计显著性结果不应被解释为偏差的不存在，而应被视为数据不足以检测任何潜在偏差的指示。

Conclusions

Para_01

ML 方法正在迅速进入单细胞领域。
在这篇展望文章中，我们讨论了社会偏见、临床偏见、队列偏见、单细胞测序偏见、（弱监督或无监督）机器学习模型偏见以及结果解释偏见是如何产生并影响使用人类样本训练的机器学习模型所获得的研究结果的。
来自英国COVID-19患者的外周血单核细胞（PBMC）数据中的偏见例子展示了多个偏见如何在一个本来对这个领域具有极大价值的单一数据集中根深蒂固（方框2）。
我们为越来越多旨在减轻单细胞相关偏见的文献贡献了自己的观点：（1）审查数据类别以确保全面采样，（2）收集更大和更多样化的数据集，（3）推进协变量测试和数据校正，（4）促进单细胞处理方面的进一步努力，（5）报告特定预期用途的机器学习模型的局限性，以及（6）实施公平性测试。
这些建议旨在作为促进单细胞分析中包容性、透明性和协作性的框架的起点，从而在这个快速发展的领域中增强研究结果的可靠性。

单细胞 | 人类单细胞数据的机器学习模型中的偏差

Basic Information

(adsbygoogle = window.adsbygoogle || []).push({}); Abstract

Para_01

Main

(adsbygoogle = window.adsbygoogle || []).push({}); Para_01

Para_02

Para_03

Para_04

Recent advances in ML for human single-cell data

Para_01

The standard pipeline for ML models of human single-cell data

Para_01

Biases along the pipeline of ML models of human single-cell data

Para_01

Societal bias

Para_01

Para_02

Clinical bias

Para_01

(adsbygoogle = window.adsbygoogle || []).push({}); Para_02

Cohort bias

Para_01

Para_02

Single-cell sequencing bias

(adsbygoogle = window.adsbygoogle || []).push({}); Para_01

Para_02

Para_03

ML bias

Para_01

(adsbygoogle = window.adsbygoogle || []).push({}); Para_02

Result-interpretation bias

Para_01

Para_02

Towards mitigating biases in single-cell model results

(adsbygoogle = window.adsbygoogle || []).push({}); Para_01

Scrutinizing data categories to ensure comprehensive sampling

Para_01

Collecting large(r) and more diverse datasets

Para_01

Para_02

Advancing covariate testing and data correction

Para_01

Promoting further efforts in single-cell processing

Para_01

Reporting of limitations of intended-use-specific models

Para_01

(adsbygoogle = window.adsbygoogle || []).push({}); Implementing fairness testing

Para_01

Para_02

Conclusions

Para_01

Abstract

Para_01

Para_02

Para_01

Para_02

Para_01

Implementing fairness testing