社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

回顾性临床研究太单调?加上“机器学习”秒变身!

挑圈联靠 • 2 年前 • 475 次点击  



领略高端套路,发表高分文章!






小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。感谢作者为我们提供了很好的学习典范!今天带给大家的是一篇“机器学习”套路的纯生信文章,于2021年3月发表在《Frontiers in medicine》上的文章,最新影响因子:3.900。题目是“Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma”。


期刊简介

“挑圈联靠”题目要素拆解

疾病乳头状甲状腺癌(Papillary Thyroid Carcinoma);
数据来源临床回顾性资料;
文章类型机器学习算法的回顾性研究。

知识背景

本篇范文是一项临床大样本的回顾性研究,作者分析的数据是自己的临床数据,但从这一点来看,是不是就好像为临床大夫们量身定制的套路呀!乳头状甲状腺癌(PTC)是常见的内分泌恶性肿瘤之一。临床上常以中央淋巴结解剖(CLND)治疗,其目的是适当的清扫颈部淋巴结。相比之下,预防性中央淋巴结解剖(pCLND)由于缺乏随机对照数据而没有被推广。但临床上,为了防止cN0的PTC患者复发和第二次手术,更需要个性化的治疗方案来准确预测中央淋巴结转移(CLNM)发生的重要性。

由此,作者想要通过机器学习(ML)建立一个预测模型解决上述临床问题。ML其实是一种新型的人工智能(AI),能够通过强大的预测能力,开发出在某些情况下优于传统统计模型的预测工具,从而更好地预测CLNM状态。在本研究中作者通过ML算法以最佳的Xgboost模型获得可接受的CLNM预测,结合术前和术中危险因素,开发出在某些情况下优于传统统计建模的预测工具,从而能够更好地预测CLNM状态。

数据来源 & 思路框架

本篇范文是一篇典型的机器学习算法套路的文章,研究的数据是临床上未参与的中央颈部淋巴结甲状腺乳头状癌(PTC)患者信息。出发点就源于目前尚无明确非侵入性的T1-T2期肿瘤,是否需要进行中央淋巴结清扫。这也是本文的一个创新点。范文研究的目的呢,就是开发并验证一个基于机器学习算法的预测模型,用来评估这些患者中心淋巴结转移(CLNM)的风险。

当然,我们也可以在生信分析后,加一个对于数据集临床信息的机器学习,加加分。只要有临床数据信息和相对来讲较为正确的标签就可以化数据集为“临床研究”。接下来就是函数的各种应用,好啦我们马上就来学习范文吧!

数据精析

1

基线资料分析

本篇范文纳入的临床样本是接受手术的1,271例T1-T2期,无创性和临床淋巴结阴性(cN0)PTC患者。首先,总结这些患者的临床病理特征,分析基线资料。作者将数据集随机分为两组,即用于ML模型开发的训练集(70%)和用于性能评估的验证集(30%),然后重复此随机分裂,直到患者数据分为两组。这一步骤是机器学习算法的最基础,也是最重要的部分,后续的分析都是建立在此基础上的,小伙伴们一定要先学习算法的基础呀!否则基线不一致,后面的都是空中楼阁~

2

ROC曲线&逻辑回归模型构建

然后就直接进入正题,使用机器学习算法的ROC曲线分析,用于预测验证集中患者出现CLNM的临床节点。接下来,作者根据CLNM分组,进行单因素和多因素逻辑回归分析。在单变量分析中,作者发现肿瘤大小、性别、年龄、多灶性,双侧病变,DLN定位均显著相关,而CLNM阳性和阴性组间肿瘤的位置没有显著差异。在多变量logistic回归分析中(表2),作者列出了包括年龄、性别、CLT、DLN、多灶性、双侧性、肿瘤大小和位置等在内的因素,是否能够作为预测CLNM阳性的独立预后因素。


3

机器学习算法的开发及性能比较

这一部分是文章中的高潮部分。作者开发了六种类型的ML算法来对数据建模:逻辑回归(LR),梯度提升机(GBM),极限梯度提升(XGBoost),随机森林(RF),决策树(DT)和神经网络(NNET) 。在训练过程中,考虑对基于ML的模型进行调整以避免过度拟合,而针对ML模型的最佳超参数是5倍交叉验证。然后,通过使用R语言对ML算法进行进一步训练,以预测CLNM的风险。作者在验证集中评估了具有相同超参数的每个ML分类器的预测能力,该验证集中的接收器工作特征(AUROC)下的面积值,并计算了ML算法的相应灵敏度、特异性和整体准确性。这六种ML算法模型在验证集中的预测性能比较见表3和图1。其中,作者详细说明了验证集中的六个ML算法模型之间的预测性能比较。结果表明,XGBoost模型在预测CLNM方面表现出最高的性能,其验证集中的AUROC为0.750,灵敏度为0.667,特异性为0.674,准确性为0.670。在ML算法性能的比较中,AUC越接近1,则分类模型执行得越好因此,作者选择XGBoost模型作为最终的预测模型。



4

变量在机器学习算法中的验证

然后,作者比较了变量在机器学习算法中的相对重要性。如图2所示,可以看到模型的总体趋势。虽然这些ML算法中各变量的重要性略有差异,但Delphian淋巴结转移、肿瘤大小、年龄、性别、多灶性等因素无一例外地排在前五名。相反,双侧病变、肿瘤位置在中、峡部极、CLT等变量对CLNM的预测贡献不大。

结果如图2,显示了每种CLNM预测ML算法中变量的相对重要性。我们可以看到有普遍的证据趋势:尽管在这些ML算法中变量的重要性显示出细微的差别,但包括Delphian淋巴结转移,肿瘤大小,年龄,性别,多灶性在内的因素均排在前五位。相反,诸如双侧病变,中部或峡部中部的肿瘤位置和CLT之类的变量对CLNM预测的贡献很小。XGBoost模型中高级变量的重要性按降序排列:德尔福淋巴结转移,肿瘤大小,年龄,性别,多灶性和肿瘤位置。


5

开发在线风险计算器

最后,作者基于性能最佳的模型,创建了一个在线风险计算器,该计算器可以使用新输入的PTC患者数据进行预测,从而使临床医生可以轻松访问这些患者中的CLNM风险。这个Web计算器可预测T1-T2期,非侵入性和临床淋巴结阴性PTC患者的中心淋巴结转移。只需输入现成的术前和术中临床病理变量(https://jin63。shinyapps.io / ML_CLNM /)

全文总结

本篇范文作者采用了性能最佳的ML算法模型,用于估算个人发生CLNM的可能性。创新点就是,作者第一个使用ML算法开发具有CLMN实时风险评估的预测模型的研究模型。作者应用了六种机器学习(ML)算法,包括逻辑回归(LR),梯度提升机(GBM),极端梯度提升(XGBoost),随机森林(RF),决策树(DT) ,以及神经网络(NNET)结合术前的临床特征和术中信息来开发CLNM的预测模型。在所有样本中,随机选择70%训练模型,其余30%用于验证。

基于ML的模型,利用术前和术中临床病理特征来预测个体化治疗CLNM的可能性,并获得最佳的ML算法用于在线预测PTC的CLNM。ML算法将术前变量包括较大的肿瘤,更年轻的年龄,男性,多灶性以及下位的肿瘤位置确定为CLNM阳性状态的最重要的预测指标。在单因素分析中,双侧病变与CLNM有关,但在校正混杂因素后,在多因素分析中显示无意义。所有结果均已在ML算法中得到确认。ML算法的比较表明,XGBoost模型具有最佳性能。为了使该模型的应用可用,作者还进一步建立了一个在线计算器,用于估计该子集的PTC患者中CLNM的个案可能性。这个在线应用程序,可供临床医生通过计算每个患者的风险来促进个性化手术治疗。比如,如果确定患者在手术期间发生CLNM的可能性很高,则尽管与当前ATA指南相抵触,仍可以考虑pCLND。

好啦,其他的分析结果我就不多说啦,大家后台回复“机器学习”获取范文全文吧~好啦,我们下周再见吧,拜拜!


参考文献

[1]Jiang Zhu1, Jinxin Zheng, Longfei Li.etl.Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma.Front. Med., 09 March 2021 | https://doi.org/10.3389/fmed.2021.635771


通讯作者代志军教授简介
浙江大学医学院附属第一医院主任医师,博士生导师,博士后合作导师,浙江大学临床名师计划引进人才。中华预防医学会循证医学分会方法学组副组长,中国医促会循证医学分会委员,中国抗癌协会整合肿瘤专业委员会委员,浙江省数理医学学会循证医学专委会主任委员,生物大数据专委会副主任委员以及多个学会常委或委员,Cancer Medicine、World J Gastroenterol等国际期刊编委,国际知名期刊Cancer、Cancer letters、Breast Cancer Res Treat、DNA and Cell Biology、Cancer Cell Int等20余种SCI杂志审稿人。近年来在国内外知名期刊发表论文120余篇,其中SCI收录90余篇,中英文被引共计>3000次。目前主持国家自然科学基金2项、省市各级课题多项。获国家发明专利授权5项,获省部级科学技术奖4项。
代志军教授主要研究方向为:
(1)肿瘤生物靶向治疗基础;
(2)肿瘤临床流行病学。
代志军教授团队常年招聘博士后工作人员,待遇优厚,详情也可查阅浙江大学医学院招聘网站,欢迎感兴趣的研究人员应聘。应聘者请将个人申请材料发送至:dzj0911@zju.edu.cn,并将主题注明"博士后申请+姓名"。



苏新良,博士,重庆医科大学附属第一医院内分泌乳腺外科教授,主任医师,硕士生导师,重庆抗癌协会甲状腺癌专业委员会主任委员,中国医师协会重庆市甲状腺外科专委会副主任委员, 中国研究型医院学会甲状腺疾病专业委员会常务委员,中国医疗保健国际交流促进会临床实用技术分会常务委员,中华医师协会甲状腺外科专委会委员。2006年前往法国斯特拉斯堡大学中心医院做访问学者。近年来在国内外杂志发表学术论文数十余篇。担任《中华内分泌外科杂志》、《中国肿瘤临床》、 《重庆医科大学学报》等杂志编委及审稿专家。







往期传送门
CELL的TCGA数据挖掘有什么不一样?全面驱动基因突变景观拓展你的眼界!(内附图文精讲)
Cancer Cell最新纯生信文章,TCGA数据再度深入挖掘!
惊!TCGA多组学分析套路,还能发到9分加?葫芦里卖的什么药?
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
揭秘!8分+经典高端“基因家族”纯生信套路大放送~
“基因家族”套路过时了?最新10分+纯生信文章发给你看!
临床搞得你焦头烂额?这篇Nature子刊教你巧用临床数据发顶级生信文章!
TCGA太俗套?自己的临床数据搞起来照样发高分!
年初重磅福利!0实验轻松发表6分+~包你2021开年红!
生信也有队列研究!这篇近9分纯生信SCI教你如何挖别人的数据,发自己的文章 !
2张Fig的单癌种生信文章10分+?到底出彩在哪里!
申课题陷入无前期“死循环”?5分+非肿瘤生信万能套路让牛年的你“开门红”(文末有重点哦~)
终于要教你们高水准“挑分子”必杀技能了!
这篇近9分+的ceRNA生信,教你这样“耍花招”!
申课题没有前期?5+干湿结合文章教你如何巧用生信数据!
大佬云集科研团队发的6分文章,3天搞定绝对不是梦
“基因集”套路你听说过吗?新鲜出炉6分+文章有望引领生信新潮流
“单基因套路”也能15分+!这样的生信它不香吗?


欢迎大家关注解螺旋生信频道-挑圈联靠公号~




END

撰文丨菠小萝
排版丨四金兄
值班 | 风间琉璃
主编丨小雪球




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/131272
 
475 次点击