社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

纯生信1区Top“躺赢”拿下!“机器学习+双疾病”选题就是互相成就,这个思路好做!

生信塔 • 5 天前 • 12 次点击  
大家好,还是那句话,与其科研内耗,不如跟紧生信塔!也是有段时间没有分享双疾病的实例了,大家的呼声很高!那生信塔有求必应,今天咱们讲讲双疾病的发文思路~
图片
今日这篇文章来自西安交通大学第一附属医院,选择的是间质性膀胱炎(IC)&抑郁症(MDD)这两种疾病。看似不搭边,其实这俩经常“随行”比如IC患者抑郁风险高5倍!),但为啥总凑一块一直没人说清楚。基于这个背景,研究团队从数据库挖了6个数据集,先用R语言筛出21个同时在俩病里异常的基因,发现它们都和免疫炎症有关 ,接着用12种机器学习算法组合出113个模型,最后挑出11个基因组成的模型,诊断抑郁症的准确率比现有的模型都高
结果中接地气的点是,他们找到了10种可能有效的药物,比如绿茶里的EGCG,生信塔灵机一动,说不定以后喝杯茶就能辅助治抑郁?总的来说,这个研究的样本量不大,而且都是回顾性数据,类似思路大家复现起来so easy~生信界最懂你的生信塔来啦!双疾病选题就像嗑CP,生信塔帮你找最强交集!机器学习模型精准上分,这导师看了都要疯狂点赞!如果大家面临分析太慢的问题?生信塔提供定制化方案+生信 服务器,助力大家轻松科研欢迎联系生信塔咨询~ 


定制生信分析

生信服务器

加微信备注99领取使用


图片



数据来源



开头说了数据资源是薅来的,生信塔给大家挖出来了,具体是从GEO薅了 6 个数据集,其中:
间质性膀胱炎(IC)3 个:
GSE11783(膀胱组织样本)
GSE28242(尿液沉渣样本)
GSE57560(膀胱组织样本)
抑郁症(MDD)—3 个:
GSE98793(全血样本,作为训练集)
GSE52790(外周血样本,验证集)
GSE39653(PBMC 样本,验证集)    



研究思路



首先用到的工具包括:R语言全家桶(sva,Limma,cluster Profiler,glmnet)、Python(XGBoost)、GeneMANIA、Enrichr
1.数据收集与清洗
从GEO数据库扒数据集具体来源上面生信塔给了
合并同类项:把3个IC数据集和2个MDD数据集分别合并(IC的验证集单独留着
去批次效应:用R的ComBat包 清洗数据,PCA验证清洗效果
2.找差异基因(DEGs)
Limma找差异:筛选IC和MDD各自的差异基因(|log2FC|>0.25且p<0.05
找交集:21个基因同时在IC和MDD里异常(Venn图可视化
3.功能与机制分析
画关系网:Gene MANIA构建PPI网络
通路富集 :GO/KEGG分析
免疫细胞浸润:ssGSEA算出IC和MDD里23种免疫细胞的浸润情况(IC的Th1多,MDD的巨噬细胞多
4.机器学习建模
12种算法(XGBoost、随机森林、LDA等)组合成113种模型    
交叉验证:选出最优组合(Stepglm+XGBoost
5.找药物
Enrichr平台的DSigDB找出10种候选药物 EGCG、阿司匹林),看它们能不能靶向模型基因
图片



研究结果



1.整合MDD数据集和IC数据集    
图片
2.确定DEGs
图片
3.PPI网络分析和富集分析    
图片
4.IC和MDD的免疫学特征    
图片
5.模型的诊断性能    
图片
6.多发性硬化症诊断基因表达特征的比较    
图片
(复现)比如换疾病有啥要注意的?
第一个数据适配性:
l确保新疾病有足够公共数据建议每组样本>30例
l注意组织类型匹配血液/肿瘤组织
第二个算法要调整:
l类别不平衡处理(SMOTE/加权损失函数
l特征选择策略(基于Lasso的基因筛选    
第三个机制验证:
l优先选择文献已报道的基因作为候选
l 结合单细胞测序数据验证细胞特异性表达
第四个临床转化:
l关注样本采集的可行性外周血vs组织活检
l考虑多中心验证需求

生信塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call生信塔,我们团队竭诚为您的科研助力!


文献思路复现

定制生信分析

生信服务器


 往期 · 推荐 

IF 16.7!高质量、综合GBD数据库炸裂登场!武大中南医院&湖北医科大襄阳医院携手,3图3表拿下高分,简直美滋滋~

十投九中+纯生信友好=神刊!复旦肿瘤医院李大卫团队2区6分模板文,单细胞数据挖掘+乳酸化修饰,科研人错过血亏!

11种机器学习“飞”上1区Top,诺奖热点不容错过!苏州大学李艳红团队,预后模型这波操作太燃了!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181224
 
12 次点击