社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

IF=4.5,小白的第1篇影像组学+机器学习?纯公共数据轻松拿下,暗含至少2个10+上分点!

挑圈联靠 • 4 天前 • 19 次点击  

欢迎来看雪球讲套路、讲文献!目前,各种基础生信分析套路的体系日渐完善,进阶的套路也演化出新的方向,既适合小白快速入门,又适合已经掌握一定技术的同学及时拥抱新变化。今天,两者结合,看看基础分析+新方向能碰撞出怎样的火花。


提前看了今天的文献,我知道是机器学习+影像组学的研究。可是,之前讲解了几篇这个组合10+的文章,今天的分数就......波动这么大的吗?

今天的文章很好地说明了公共数据也能做影像组学,以及影像组学可以通过预设的方法,被高效地化繁为简,为你所用。没数据、没经费的小白也能轻松入局,来看看吧!

另外,已经有自己的数据、一定的科研资源,想要冲刺基金评审,获取更好的代表作,可以在这篇文章的框架上,继续做哪些事呢?看到最后,雪球来告诉你。

如想系统学习各种实用发文套路

可添加雪球

回复“硕博”或“卓越计划”咨询

想get同款思路

也可添加后回复“个性化”咨询


Development and validation of a radiomic prediction model for TACC3 expression and prognosis in non - small cell lung cancer using contrast - enhanced CT imaging

基于增强 CT 影像的非小细胞肺癌 TACC3 表达及预后放射组学预测模型的开发与验证


期刊:Translational Oncology

IF:4.5

发布时间:2025/01


 技术路线 


数据收集与预处理:

从TCGA、GEO和TCIA收集了320例肺腺癌和122例NSCLC病例的基因组数据和增强CT影像,经过筛选和预处理,确保数据的完整性和一致性。


TACC3表达与临床特征的相关性分析:

发现TACC3高表达与肿瘤组织、化疗、组织学类型等临床特征存在显著相关性,提示TACC3可能参与肿瘤的发生和发展。


生存分析:

Kaplan-Meier生存曲线和Cox回归分析显示,高TACC3表达与总生存率降低显著相关,表明TACC3是一个独立的预后风险因素。


影像组学特征提取与筛选:

通过最小冗余最大相关性(mRMR)和递归特征消除(RFE)方法,筛选出与TACC3表达相关性高且冗余度低的影像组学特征。


影像组学模型构建与验证:

使用逻辑回归(LR)和支持向量机(SVM)算法构建的模型在内部五折交叉验证中表现出良好的预测性能,AUC值分别为0.701和0.717,表明模型具有较强的预测能力和稳定性。


模型校准与临床应用评估:

校准曲线和Hosmer-Lemeshow拟合优度检验显示模型预测与实际结果一致性良好,决策曲线分析(DCA)证实了模型在不同阈值下的临床效益,表明该模型具有临床应用潜力。


整合影像组学评分与临床特征构建预测列线图:

通过逐步回归筛选出与预后相关的临床变量,并将其与影像组学评分整合,构建了预测12、24和36个月生存概率的列线图,时间依赖性ROC曲线和校准曲线验证了模型的预测能力,表明整合模型在临床预后分层中具有较高的准确性和稳定性。


 研究结果 


Fig 2 TACC3 表达水平和KM曲线分析


Fig 3 Cox回归分析

A: NSCLC数据集的单变量回归分析 B: LUAD数据集的单变量回归分析

C: NSCLC数据集的多变量回归分析 D: LUAD数据集的多变量回归分析


Fig 4 TACC3表达水平和临床病理学特征的关系

A: NSCLC数据集 B: LUAD数据集


Fig 5 GSVA分析:

A: NSCLC: KEGG 基因集 B: NSCLC: 标志性基因集

C: LUAD: KEGG 基因集 D: LUAD: 标志性基因集


Fig 6 免疫微环境

A: NSCLC: 免疫相关基因 B: LUAD: 免疫相关基因

C:NSCLC:免疫细胞浸润 D:LUAD:免疫细胞浸润


Fig 7 LR 模型:

A:放射组学特征 B:所选特征的重要性 C:ROC 曲线分析

D:使用内部 5 倍交叉验证进行 ROC 曲线分析

E:校准评估 F:PR 曲线 G:DCA 净收益在 Y 轴上表示。黄色曲线表示影像组学模型,灰色曲线表示假设所有患者都接受了治疗,黑色直线表示没有患者接受治疗的假设

H: RS 与 TACC3 表达之间的关联

Fig 8 SVM 模型:

A:所选特征的重要性 B:ROC 曲线分析

C:具有内部 5 倍交叉验证的 ROC 曲线分析 D:校准评估

E:PR 曲线 F:DCA

G: RS 与 TACC3 表达之间的关联


Fig 9 预测列线图的构建和模型评估

A:预测 OS 的列线图的开发

B:风险评分的时间依赖性 ROC

C:风险评分的校准曲线

12 个月 (D)、24 个月 (E) 和 36 个月 (F) 的 DCA。


这篇小白也能做的机器学习+影像组学就拆完了。想要冲基金冲代表作的同学,可以注意把影像组学特征与TACC3表达的生物学机制联系起来,比如加入测序信息(空间转录组、单细胞、RNA测序等),或构建影像组+基因组+蛋白组的多组学网络。另外,提取影像组学特征的流程也有不小的优化空间。使用这两种进阶思路的研究,雪球在往期有所讲解,可以现在去阅读一下。

通过RNA测序增强模型可解释性,加入免疫差异分析、差异表达分析、肿瘤免疫微环境分析 | 点此跳转>>>

提取影像组学特征后,进行特征选择与降维,并通过10折交叉验证优化超参数,选择最重要的10个特征进行模型训练 | 点此跳转>>>







影像组学的可复现能力,加上生信小白的反复刻意练习,就是未来进阶为10+代表作的最佳基础。不过,进步不止这一招。


怎么通过三个阶段的学习成长,达到「降维打击」级别的发文能力,达到各大热点、各种疾病一网打尽」的状态,本周三(4月2日)晚八点,雪球将直播为大家讲解。感兴趣就添加雪球,回复“1”预约吧!


如果你的时间紧迫,来不及从0开始慢慢学;如果你想给自己装备一篇分数更高的代表作;如果你想把自己手头的数据最大化利用......就来找雪球,回复“个性化 ”定制吧!

✅立足科研 守正创新

✅上下限跨度广

✅适合优化分析/进阶分数段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍

 雪球的生信套路 每周周中讲解 

注意没有星标⭐的话

容易错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180605
 
19 次点击