New Challenge!
挑战7天完成一篇机器学习构建临床预测模型
确定选题、锁定目标期刊、找到关键文献
给各位师弟师妹们汇报一下最近的情况。前面应大家的要求,在大家的督促下完成了多期网状meta的挑战,非常开心的顺利完成了挑战
大家的学习热情就像燃烧的火焰,所以现在我们挑战机器学习构建预测模型,7天完成!预测模型大家都比较熟悉了,那怎么加入机器学习这个热点话题呢,就是一股股劲儿,冲就完事儿!
现在人工智能、机器学习的浪潮席卷而来,一点儿也不夸张的说,绝对是我们未来的新方向,2024年的诺贝尔物理学奖颁给了神经网络,Deepseek给我带来了莫大的惊喜和超级的期待,这不仅是挑战,更是我们科研路上的加速器!
我在Pubmed上面进行初步的检索,最近几年的机器学习文章数量呈现井喷,什么XGBOOST、LGM等等模型,在医学上的应用也是越来越广泛,文章也是越发越高
每天都能收到师弟师妹们的咨询,不是问这个算法怎么用,就是问那个数据咋处理,看得出来大家也都对机器学习在临床医疗的巨大潜力 “虎视眈眈” 呢。其实我也觉得,只要咱们找准方向,肯花时间下功夫钻研,肯定能搞出点名堂!
以前传统的预测方法,很多时候只能看看表面的数据,局限性太大了。但机器学习可不一样,它能处理海量的数据,把那些隐藏在深处的规律和模式都给挖出来,然后建立起比较精准的预测模型。
按照以往的Step,先要有目标,我的目标期刊是“International Journal of Medical Informatics”是Elsevier旗下的比较老牌的期刊,2区。不是什么水刊,对机器学习也比较友好的。我的目标文献是用的MIMIC数据库,为了方便我就采用的NHANES数据集,解决临床研究没有数据的问题,这其实也是nhanes数据库挖掘的高阶内容了,比传统的相关性分析来说加了一些新的内容进去,也就意味着中稿的概率会更高。如果师弟师妹们手里有既往的数据发过传统的文章,也可以用机器学习的代码再写一篇文章,毕竟有新的“Buff”叠加
宝子们,都跟上我的节奏哈,咱们一起把理论做成实践,咱们一起把代码跑成figure。明天继续冲,奥利给!
选题Triple check
昨天一通检索,初步有了选题方向,数据就用NHANES数据,方法就是机器学习但那还远远可不够,所以今天必须深层次地确认选题。要知道,机器学习虽然很新,但是相关的文章如潮水般涌现,要是不小心选了个别人早就做过的选题,那这 7 天可就白忙活了吗,这也是在提醒大家一定要充分选题讨论,方向对了的努力才叫努力
选题的重要性怎么说都不过分。虽说筛选和确定选题要耗费不少时间和精力,可这绝对是关键的第一步。一个出众的有意思的选题,直接关系到最终能不能发表,能不能发表在高水准的期刊上。要是发现类似研究已经扎堆,那就得调整思路,怎么搞点儿不一样的“创新点”。
这个过程中一定要深度的学习目标文献,这样就找准到了目标,我需要学习什么,我需要在文章中展示什么。一旦选题敲定,后续收集数据、跑代码都会顺利很多。师弟师妹们,跟上步伐,一起朝着目标冲刺!
明天接着分享挑战进展~
文献精读+数据准备+代码准备
机器学习到底在分析什么?大家可能会有这样的疑问。一篇机器学习相关的文章到底什么最重要,对于我们临床医生来说,让我去解释算法、去敲代码是“对牛弹琴”的。所以我们的重心要调整到数据和结果的解释,而不是纠结算法到底是什么样的,这个我们稍微能懂一点儿就可以,能跑通代码、能跑的出来结果、能够对图片进行解读,这是我们医疗工作者应该关注的
数据哪里来?可以是自己科室的既往数据,也可以是以前发过的文章的数据,也可以是公开数据库的数据。我们这次挑战使用的是nhanes数据,因为前面单独挑战过nhanes,我们就不过多的介绍nhanes了。总体来说,就是一个同样的数据集的不同处理方式
那模型又是什么?XGBOOST这些都是对应的一个模型,这个我们可以一定程度上忽略,在医学上不会过分关注算法,只要能用就行。也就是数据集替换了过后能够跑的通代码
比较重要的就是SHAP,这是最近特别重要的一个新的发高分的点。简单来说,SHAP是一种用于解释机器学习模型预测结果的方法。最大的特点是预测结果分解为每个特征的贡献,为模型提供全局和局部的可解释性,可以观察到每个特征变量对结局的影响大小,方法学的平移,这个点希望大家在未来的科研工作中都能有新的体会
数据准备好啦!代码准备好啦!继续加油呀!
任务:核心图表与数据表
这两天的任务就是跑代码,解决在跑代码的过程中可能出现的各种问题,进而将核心的结果(Table Figure)给跑出来,这就是我这篇文章的最核心的内容
我最开始安装包的时候,整整安装了2个多小时,老是有各种各样的报错,这确实是做机器学习需要克服的最大的困难。其实对电脑的要求还是有一些的。我是i5-13+3050,跑的时候还行,全部跑完大概用了半个小时,当然也可能和我的数据集比较小有关系,Nhanes才多少点儿数据
我们通过R跑出来的图片基本都可以直接放在文章里面,这个ggplot2等包已经非常高级了,我们只需要跑出来、整理好,取一个合适的标题和Legends。机器学习非常有意思的地方在于,以前发过文章的数据还能加上机器学习再发一篇“旧数据发新文章”
核心的Figure出来了,这篇文章基本也就结束嘞
挑战继续,加油冲锋~
框架写作法,写作冲刺,一气呵成!
数据分析和核心结果都已经搞定,可有的师弟师妹却犯了难,不知道该怎么把这些成果写成一篇出彩的文章,感觉脑子一团乱麻,根本不知道从哪儿下笔。其实别慌,写作真没那么可怕,记住 “先行动,先码字,再打磨;先完成,再完美” 这句话,就成功了一半。
咱们医学生的能力那都是杠杠的,一篇文章多少字?8000 还是10000?除去摘要、参考文献、一些模块化内容写作,实际上真正让我们写的也就只有那点儿。咬咬牙、坚持坚持肯定能写完。但是如何高效的写完呢?如何写出能达到发表级别的文章内容呢?这就要用到我们独家总结的“框架写作法”了
祛魅,写多了,也就那么回事儿。在写稿的时候,多多以一个审稿人的身份进行写作,如果你是审稿人、你是编辑,那你想在文章中重点呈现什么最核心的内容,把自己的角色从作者转变为审稿人
当然,最核心的还是Figure和Table支持的核心结论有没有意义,这是决定文章的最重要的内容,写作内容完成了还要引用文献,然后是润色、选刊,选择合适的期刊后(前面已经确定了目标期刊)。所以我们按照目标期刊的规定和要求,一步一步进行格式的调整。比如行距、行号、模板化内容有些调整,达到格式要求是敲门砖,这个是最基本的要求,也是我们严谨科研态度的体现。也正是因为我们在前面有目标文献,所以呢,我们在写作的时候会有意识的往目标文献的格式上面靠
目标明确了,我们就清楚要展示什么结果,以及各个部分该怎么写。平时多看文献,就能摸透侧重点;多写文章,就能掌握写作的要点。
机器学习挑战成功!
一起冲鸭!