网络药理学随着发文不断增加,其思路也百花齐放,其中网药联合机器学习的思路深受很多人的喜爱,当我们看具体的研究时会发现其中所用到的机器学习算法无非就是LASSO、SVM、RF这三种,是你学他,我学你,这样套模版式的“抄作业”,还是另有原因?今天科研豆就来跟大家唠唠:为什么网络药理学联合机器学习总是用LASSO、SVM、RF这三种算法呢?
网药获取的靶标数量一般在几十或几百,其实还是比较有限的,所以在选择机器学习算法额度时候就比较受限制,而LASSO、SVM、RF这三种算法刚好适合样本量比较少的情景。
LASSO:能实现自动特征选择和降维,筛选出与疾病或药物作用最相关的特征,减少数据的复杂性,提高模型的解释性和计算效率。
SVM:能用有限的样本信息构建模型,准确识别出与疾病或药物作用相关的标志物。
RF:能降低模型方差,减少过拟合的风险,提高模型的稳定性和泛化性能。
因为三种算法相对来说也比较简单,所以应用最为广泛,而且在用这三种算法的时候,总是取这三种算法结果的重叠genes做为候选genes进行后续的分析,最大限度的保证的分析结果的准确性。
今天科研豆给大家分享的文章来自《Bioresources and Bioprocessing》期刊,用的就是网药联合这三种机器学习算法,下面我们就先来看看文章中有哪些地方值得我们学习借鉴吧~
亮点展示
这篇文章的整体框架可以概括为:含药血清代谢组学获取化合物→网络药理学探机制→机器学习筛选靶标→分子对接→实验验证,整体思路中生信占比还是比较高的,而且属于网药的联合思路,有一定的综合性但不至于太复杂,复现起来难度比较大。如果有想法的宝子们可以联系下科研豆,咱们先对更换的药物和疾病进行下创新性和可行性等的评估(名额有限哦~),确定可行后再做也不迟呀,如果有宝子正发愁方案或分析,我们的专业团队刚好能帮大家解决,以这篇文章的工作量为例,我们1-2个月便能完成生信部分,提供高质量分析报告,有想法滴滴即可~

研究思路
🔵制备BYJHD以及含药血清,UHPLC-Q Exactive HF-X检测血清成分。
🔵从PubChem中获取化合物的2D和3D结构,利用STP检索经UHPLC-Q Exactive HF-X分析鉴定的化学成分的潜在target genes。通过UniProt将target henes与genes名进行对比,BYJHD的药物target genes。
🔵用疾病名作为关键词,在GEO中检索NSCLC相关的target genes,下载GSE19804筛选正常组织与NSCLC组织之间的DEGs,并用WGCNA对DEGs进行分析。
🔵获取药物与DEGs、WGCNA结果之间的共同genes,并将其上传至STRING,构建PPI网络,用Cytoscape对PPI网络进行可视化和分析。
🔵对潜在的target genes进行GO和KEGG分析。
🔵用LASSO、SVM、RF这3种机器学习算法分别筛选genes,并取三者之间的交集,从而获得枢纽genes,并在GSE19804和GSE10072上进行ROC曲线分析,验证模型的诊断价值。
🔵基于GSE19804,利用CIBERSORT估计了22种浸润性免疫cell类型的相对比例,进行 Spearman 相关性分析以确定关键基因与免疫细胞类型之间最强的关联性。
🔵从PubChem中检索了4种主要活性化合物的mol2文件,从PDB中获取核心靶蛋白的晶体结构,使用AutoDockVina进行分子对接。
🔵体内外实验验证。

研究结果
网药和机器学习共筛选出38种靶向653种NSCLC相关蛋白的活性化合物。对2161个DEGs和3124个功能模块进行交叉分析,最终确定了54个关键治疗靶点。随后,通过蛋白质-蛋白质相互作用(PPI)分析和机器学习方法,确定了5个关键信号通路调控因子。分子对接研究表明,白英菊花汤中的4种代表性化合物与这些靶点具有很强的结合亲和力。体外和体内实验均证实,BYJHD通过发挥抗血管生成作用抑制非小细胞肺癌(NSCLC)的进展,具体机制是通过抑制ACVRL-1/Smad/ID-1信号通路和下调CD34表达。

图1 WGCNA分析

图2 网药分析

图3 GO和KEGG富集分析

图4 机器学习筛选target genes

图5 免疫浸润分析

图6 分子对接
坊中总结
这篇文章结合网络药理学预测、血清药理化学分析以及3种机器学习算法(包括LASSO、SVM-RFE和RF),筛选化合物并探究相关机制,其中所涉及到的数据大部分来自公共平台,发文性价比可以说非常高了,并且实验整体难度也不算太大,科研豆非常推荐!如果宝子们正在考虑新一年的生信好思路,这篇网药+机器学习值得入手,如果觉得其中某些分析难度比较大,可以交给科研豆完成,您专注实验,我们致力于生信,两手抓,科研速度嗖嗖滴,有想法就来滴滴!