教程地址：https://ehrapy.readthedocs.io/en/stable/tutorials/notebooks/mimic_2_introduction.html

聚类分析

为了更好地理解数据，通常通过莱顿算法中实现的社区检测来确定集群是有用的。此外，聚类允许对集群之间发生变化的特征进行无偏检测，因此对我们来说很有用的。

聚类识别

ehrapy中的实现允许设置确定找到的集群数量的分辨率。调整参数通常很有用。

# 使用Leiden算法进行聚类分析
# 参数说明:
# - adata: AnnData对象,包含需要聚类的数据
# - resolution: 聚类分辨率参数,值为0.3
#   - 较小的resolution值会产生较少的聚类
#   - 较大的resolution值会产生较多的聚类
#   - 0.3是一个中等的分辨率,可以得到适中数量的聚类
# - key_added: 聚类结果存储的键名为"leiden_0_3"
#   - 聚类结果将保存在adata.obs["leiden_0_3"]中
#   - 每个细胞会被分配一个聚类标签
# 该聚类的作用:
# 1. 识别数据中的自然分组
# 2. 发现具有相似特征的患者群体
# 3. 为后续分析提供群体分类依据
ep.tl.leiden(adata, resolution=0.3, key_added="leiden_0_3")

leiden算法向存储集群的obs（leiden_0_3）添加了一个密钥。这些随后可以在UMAP嵌入中可视化。

adata.obs.head(4)

# 使用UMAP可视化Leiden聚类结果
# 参数说明:
# - adata: AnnData对象,包含UMAP降维和Leiden聚类结果
# - color: 指定用于着色的变量
#   - "leiden_0_3": 使用resolution=0.3的Leiden聚类标签进行着色
#   - 不同颜色代表不同的聚类群体
# - title: 设置图表标题为"Leiden 0.3"
#   - 表明这是resolution=0.3的Leiden聚类结果
# - size: 设置散点大小为20
# 该可视化的作用:
# 1. 直观展示Leiden聚类的结果
# 2. 观察不同聚类之间的分布和关系
# 3. 评估聚类效果的合理性
ep.pl.umap(adata, color=["leiden_0_3"], title="Leiden 0.3"


    
, size=20)

接下来，我们可以探索某些特定于集群的特征，因此可以用于注释。

集群特性

为了识别特定于集群的标记，ehrapy提供了ep.tl.rank_features_groups（）函数，该函数允许集群组之间的统计测试以确定显着丰富或降低的值

# 对Leiden聚类的不同组进行特征排序分析
# 参数说明:
# - adata: AnnData对象,包含数据和聚类结果
# - groupby: 指定用于分组的变量名
#   - "leiden_0_3": 使用resolution=0.3的Leiden聚类标签作为分组依据
#   - 会对每个聚类组进行特征排序
# 该分析的作用:
# 1. 识别每个聚类组的特征性标记
# 2. 找出区分不同组别的关键特征
# 3. 帮助理解每个聚类组的生物学意义
# 4. 为后续分析提供重要特征的参考
ep.tl.rank_features_groups(adata, groupby="leiden_0_3")

# 设置图形参数
# - figsize=(4, 4): 设置图形大小为4x4英寸
# - dpi=100: 设置图形分辨率为100dpi(每英寸点数)
ep.settings.set_figure_params(figsize=(4, 4), dpi=100)

# 可视化特征排序结果
# 参数说明:
# - adata: AnnData对象,包含特征排序的结果
# - key: 指定要可视化的特征排序结果的key
#   - "rank_features_groups": 使用之前计算的特征排序结果
# - ncols=2: 设置图形列数为2,即每行显示2个子图
# 该可视化的作用:
# 1. 展示每个聚类组中最具特征性的基因/特征
# 2. 通过热图形式直观显示特征表达模式
# 3. 帮助识别不同组别的标志性特征
# 4. 为生物学解释提供依据
ep.pl.rank_features_groups(adata, key="rank_features_groups", ncols=2)

我们还可以将每个集群的顶级功能作为DataFrame

# 获取特征排序的数据框
# - ep.ad.get_rank_features_df(): 从AnnData对象中提取特征排序结果
# - adata: 包含特征排序结果的AnnData对象
# - group=["0", "1", "2", "3", "4", "5"]: 指定要分析的聚类组别
df = ep.ad.get_rank_features_df(adata, group=["0", "1", "2", "3", "4", "5"])

# 筛选显著性差异的特征
# - df.loc[]: 基于条件筛选数据框
# - df["logfoldchanges"] > 0: 选择表达量上调的特征(log fold change > 0)
# - df["pvals_adj"] 
# - &: 组合两个条件,同时满足才会被保留
df = df.loc[(df["logfoldchanges"] > 0) & (df["pvals_adj"]

# 筛选第2组(group="2")的特征数据
# - df.loc[]: 基于条件定位数据框的行
# - df["group"] == "2": 选择group列值等于"2"的行
# - 返回一个包含第2组所有特征的数据框,包含:



    
#   - names: 特征名称
#   - scores: 特征得分
#   - logfoldchanges: 表达量变化倍数(log2)
#   - pvals: 原始p值
#   - pvals_adj: 校正后的p值
df.loc[df["group"] == "2",]

从这张表中，我们还可以提取每个集群中的顶部特征，并在UMAP上或作为小提琴图逐集群突出显示这些特征。

# 获取每个组别的前5个重要特征
# - df.groupby("group"): 按group列分组
# - .head(5): 每组取前5行数据
# - 这样可以获得每个聚类组最显著的5个特征
top_features = df.groupby("group").head(5)

# 提取唯一的特征名称并转换为Series
# - top_features["names"]: 获取names列
# - .unique(): 获取唯一值,去除重复
# - pd.Series(): 转换为pandas Series对象
# 这样可以得到所有组别中最重要特征的去重列表
top_features = pd.Series(top_features["names"].unique())

# 显示结果
# 输出所有组别中最重要的特征名称列表
top_features

# 设置图形参数
# - figsize=(3.8, 2): 设置图形大小为3.8x2英寸
# - dpi=100: 设置图形分辨率为100dpi
ep.settings.set_figure_params(figsize=(3.8, 2), dpi=100)

# 绘制第一组小提琴图
# - keys=["censor_flg", "mort_day_censored"]: 展示审查标志和死亡天数
# - groupby="leiden_0_3": 按leiden聚类结果分组
ep.pl.violin(adata, keys=["censor_flg", "mort_day_censored"], groupby="leiden_0_3")

# 绘制第二组小提琴图
# - keys=["platelet_first", "age"]: 展示血小板首次检测值和年龄
# - groupby="leiden_0_3": 按leiden聚类结果分组
ep.pl.violin(adata, keys=["platelet_first", "age"], groupby="leiden_0_3")

# 绘制第三组小提琴图
# - keys=["sapsi_first", "copd_flg"]: 展示SAPS评分和COPD标志
# - groupby="leiden_0_3": 按leiden聚类结果分组
ep.pl.violin(adata, keys=["sapsi_first", "copd_flg"], groupby="leiden_0_3")

# 绘制第四组小提琴图
# - keys=["sofa_first", "liver_flg"]: 展示SOFA评分和肝功能标志
# - groupby="leiden_0_3": 按leiden聚类结果分组
ep.pl.violin(adata, keys=["sofa_first", "liver_flg"], groupby="leiden_0_3")

集群注释

通过对集群特征的了解，以及上面的UMAP图，我们可以对集群进行注释。

# 初始化注释列,默认值为"NA"
adata.obs["annotation"] = "NA"

# 定义聚类组的注释字典
# - key: 聚类组编号(0-5)
# - value: 该组的特征描述
# - liver+/sofa+表示肝功能和SOFA评分较高
# - weight+表示体重较高
# - age+表示年龄较大
# - stroke+表示有中风
# - deceased+表示死亡率高
# - platelet+表示血小板计数高
# - malignancy+表示恶性肿瘤
# - copd+表示慢性阻塞性肺疾病
annotation = {
    "0": "liver+/sofa+",
    "1": "weight+", 
    "2": "age+/stroke+/deceased+",
    "3": "platelet+",
    "4": "age+/malignancy+/copd+/deceased+",
    "5": "age+",
}

# 根据leiden聚类结果为每个样本添加注释
# - 遍历leiden_0_3列的值
# - 如果值存在于annotation字典中,使用对应的注释
# - 否则保持原始的聚类编号
adata.obs["annotation"] = [
    annotation[l] if l in annotation.keys() else l for l in adata.obs["leiden_0_3"]
]

附加下游分析

在这些基本的ehrapy分析步骤之后，可以执行额外的下游分析（另请参阅其他教程）。

PAGA

推断轨迹以了解动态过程和阶段转换也可能很感兴趣。ehrapy为此提供了几种轨迹推断算法。其中之一是基于分区的图抽象（PAGA）。

# 使用PAGA(Partition-based Graph Abstraction)算法分析聚类结果
# - adata: AnnData对象,包含数据和注释信息
# - groups="leiden_0_3": 使用leiden_0_3列作为分组依据
# PAGA算法可以:
# 1. 分析不同聚类之间的连接关系
# 2. 构建聚类的抽象图表示
# 3. 帮助理解数据的拓扑结构
ep.tl.paga(adata, groups="leiden_0_3")

# 绘制PAGA(Partition-based Graph Abstraction)可视化图
# - adata: AnnData对象,包含数据和注释信息
# - color: 指定用于着色的列名列表



    
#   - leiden_0_3: 使用Leiden聚类结果进行着色
#   - day_28_flg: 使用28天内死亡标志进行着色
# - cmap: 设置颜色映射为灰色到红色渐变
#   - 使用预定义的grey_red配色方案
# - title: 为两个子图设置标题
#   - "Leiden 0.3": 显示Leiden聚类结果
#   - "Died in less than 28 days": 显示28天内死亡情况
ep.pl.paga(
    adata,
    color=["leiden_0_3", "day_28_flg"],
    cmap=ep.pl.Colormaps.grey_red.value,
    title=["Leiden 0.3", "Died in less than 28 days"],
)

# 使用PAGA初始化位置计算UMAP降维
# - adata: AnnData对象,包含数据和注释信息
# - init_pos="paga": 使用PAGA的结果作为UMAP的初始位置
#   这样可以保持PAGA分析得到的全局拓扑结构
ep.tl.umap(adata, init_pos="paga")

# 绘制UMAP可视化图
# - adata: AnnData对象,包含数据和注释信息 
# - color=["annotation"]: 使用annotation列进行着色
#   annotation列包含了不同的分组标签
#   可以直观展示不同组别在UMAP空间中的分布
ep.pl.umap(adata, color=["annotation"])

# 使用force-directed graph layout算法绘制图形
# - adata: AnnData对象,包含数据和注释信息
# - init_pos="paga": 使用PAGA的结果作为初始位置
#   这样可以保持PAGA分析得到的全局拓扑结构
ep.tl.draw_graph(adata, init_pos="paga")

# 绘制force-directed graph可视化图
# - adata: AnnData对象,包含数据和注释信息
# - color: 指定用于着色的列名列表
#   - leiden_0_3: 使用Leiden聚类结果进行着色
#   - day_28_flg: 使用28天内死亡标志进行着色
# - legend_loc="on data": 将图例放置在数据点上
#   可以直观地展示不同组别的分布情况
ep.pl.draw_graph(adata, color=["leiden_0_3", "day_28_flg"], legend_loc="on data")

导出结果

我们将所有计算和最终状态保存到h5ad文件中。然后可以使用ep.io.read（）函数再次读取它，例如：

# 将AnnData对象保存为h5ad文件
# - "mimic_2.h5ad": 指定保存的文件名
#   - 使用h5ad格式,这是AnnData对象的标准存储格式
#   - 可以保存所有数据、注释和分析结果
# - adata: 要保存的AnnData对象
#   - 包含了原始数据
#   - 包含了所有的分析结果(如聚类、降维等)
#   - 包含了注释信息
# 保存后的文件可以通过ep.io.read()重新读取
ep.io.write("mimic_2.h5ad", adata)

结论

MIMIC-II IAC数据集包含来自1776个人的46个特征的电子健康记录（EHR）。这种高维数据不容易解释，当只关注选定的明确定义的特征时，可以监督许多有趣和以前未知的特征。为了克服这个障碍，我们在MIMIC-II IAC数据集上应用了ehrapy。

EHRapy基于AnnData数据结构和稀疏的管道，以实现高效分析。我们使用内置函数对数据进行预处理，通过缺失数据的插补执行QC并降低维度，从而产生PCA和UMAP降维分析。在执行所有这些步骤之后，我们通过可视化UMAP降维上的多个特征来探索数据，从而第一眼看到患者结构。为了以无偏见的方式识别患者群体，我们使用Leiden算法对数据进行聚类，从而产生7个不同的患者聚类。聚类特定特征的计算使我们能够根据最突出的标记对聚类进行注释。我们看到已故、年龄较高且患有严重合并症（如中风和COPD）的患者（聚类2+3）与具有较温和特征（如血小板和体重增加（聚类0+1）的患者之间存在强烈差异。靠近这两个集群的是另外两个集群，它们具有更严重的特征，如心率加快（集群5）和肝病SOFA评分高（集群6），表明潜在的患者轨迹。集群4与所有其他集群不同，由离开ICU几个月/几年后死亡的患者组成。

ep.print_versions()

-----
ehrapy              0.9.0
rich                NA
scanpy              1.10.4
session_info        1.0.0
-----
PIL                 11.0.0
anndata             0.11.1
array_api_compat    1.9.1
asttokens           NA
attr                24.3.0
autograd            NA
autograd_gamma      NA
cachetools          5.5.0
causallearn         NA
certifi             2024.12.14
charset_normalizer  3.4.0
cloudpickle         3.1.0
colorama            0.4.6
comm                0.2.2
cycler              0.12.1
cython_runtime      NA
dateutil            2.9.0.post0
db_dtypes           1.3.1
debugpy             1.8.11
...
Python 3.10.15 | packaged by Anaconda, Inc. | (main, Oct  3 2024, 07:22:19) [MSC v.1929 64 bit (AMD64)]
Windows-10-10.0.26100-SP0
-----
Session information updated at 2024-12-25 19:49
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...

授课老师

灵活胖子-独自

双一流学校肿瘤学博士毕业，目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究，生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇，累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学，在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。

课程目录及安排

授课形式及时间

授课形式：远程在线实时直播授课。

授课时间：2024年12月开课，总课时不少于30小时，每周进行3-5小时的授课，有充分时间学习，预计6-8周完成所有授课内容。

答疑支持：建立课程专属微信群，1年内课程内容免费答疑。

视频回看：3年内免费无限次回看。

课程售价及售后保证

课程售价：总价3000元，报名可先交300元预定即可，开课后2周内交齐即可

对公转账等手续务必提前联系助教

承办公司：天企助力（天津）生产力促进有限公司

奖励政策：学员应用所学内容发表IF 10+文章可退还学费（具体要求及流程需要咨询助教）

报名咨询

可联系我的助教进行咨询

助教联系电话：18502623993

正式通知

pdf版通知可联系助教获取

Ehrapy-基于python的临床多组学数据端到端分析工具（四）

聚类分析

聚类识别

集群特性

集群注释

附加下游分析

PAGA

导出结果

结论

最新课程-基于R语言的动态预测模型课程-胖子老师独自授课

开课目的及前言

预测模型类文章目前总结起来发展经历了以下三个阶段：

近期高分文章举例

授课老师

灵活胖子-独自

课程目录及安排

授课形式及时间

课程售价及售后保证

报名咨询

可联系我的助教进行咨询

助教联系电话：18502623993

正式通知

pdf版通知可联系助教获取

Ehrapy-基于python的临床多组学数据端到端分析工具（四）

聚类分析

聚类识别

集群特性

集群注释

附加下游分析

PAGA

导出结果

结论

最新课程-基于R语言的动态预测模型课程-胖子老师独自授课

开课目的及前言

预测模型类文章目前总结起来发展经历了以下三个阶段：

近期高分文章举例

(adsbygoogle = window.adsbygoogle || []).push({}); 授课老师

灵活胖子-独自

课程目录及安排

授课形式及时间

课程售价及售后保证

(adsbygoogle = window.adsbygoogle || []).push({}); 报名咨询

可联系我的助教进行咨询

助教联系电话：18502623993

正式通知

pdf版通知可联系助教获取

授课老师

报名咨询