2025年中总结。一如往年惯例,总结近半年工作中的体悟和经验。
2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练,是需要些时间和精力投入的,这并不是一个简单而具体的任务,事实上它很大而泛。
我们从团队内部具体的业务场景出发,根据业务目标拆解调研方向和问题,把大而泛化为具体且可评价,拆解任务到每周,进行有预期的持续调研迭代交付。
这里以Qwen开源大模型举例。
第一周,调研基础模型有哪些、主要处理什么任务、适用什么场景、模型参数量级和量化版本的不同;弄清楚模型部署机器规格的要求,测试清楚在不同CPU/GPU卡数、内存、显存条件下的推理部署速度、并发、QPS、TTPS性能数据。当你弄清楚了Qwen系列模型,有处理文本的、图文视频的、全模态任务的,有Qwen3、Qwen2.5系列,有7B、14B、32B不同参数量级的,有Base、Instruct、预训练版本的,有AWQ、Int4、Int8、GPTQ、GGUF等量化版本的,分别代表的是什么意思和有什么区别,也搞清楚了不同服务器资源限制条件下适合什么版本,自己的业务场景下应该选择哪个版本,用什么方式去部署推理,不同模型版本、机器资源和推理部署下对应的性能数据如何,及提高并发和响应速度的方法等,才算是刚弄清楚大模型的基本概览。
第二周,到一个具体的场景下去深度应用大模型,SFT微调训练和落地评价模型效果。如果说上周是基本概览,这周就是要深入落地应用。从准备训练数据、到模型微调、到推理部署、到模型效果评价、到性能测试,在这个已知的具体的业务场景下去落地应用大模型,和之前的算法模型在效果、性能上去横向对比,较出个高低优劣。给出大模型是否可用、是否能替代现有算法的结论。
第三周,考虑如何微调大模型使之适配业务场景,考虑如何使用大模型设计出更好的技术方案,或者大模型+小模型的综合方案等,这时候才开始正式进入用大模型做技术升级和替换的阶段。
就像这样,将宽泛而抽象的大模型技术调研和升级,拆解成可落地、可预期、具体可评价的阶段性目标和任务,按周迭代,持续交付,在一个月内逐步完成大模型调研和业务技术升级的大目标。
这里是对一个月度的大目标按周维度进行的可执行目标拆解。实际执行中,还有按周维度目标对天维度目标的拆解,或者小目标的设定。我经常给自己定个半天或一天的小目标,比如今天一定要把大模型API接口部署好;比如下午一定要把测试大模型接口QPS/TTPS的代码写好,并给出性能测试结果;比如今天一定要把图片质量检测的大模型方案设计出来等。当天的小目标定下来后,就是专注、坚定的执行,一定要有看得见的结果交付物。
如此,每天完成一点,每天完成一个小任务,一口一口地吃掉一个大目标。
当你的目标清晰、具体、可执行的时候,你遇到的问题也就清晰明了,可寻找的解决方向也就明确有答案,解决这个小问题就不是问题,完成这个小目标就不是难事。你也就不容易困惑、迷茫、找不到方向,也不会不清楚自己每天该做什么。
小任务目标都是围绕大目标展开的,每周都有持续的交付结果,过程中你的工作大家都看得见,所以领导对你的工作有预期、方向把控上也有的放矢,大家就都不会焦虑、迷茫。随着一个个小目标的完成,不仅自己得到了正反馈,领导和同事也会因此产生乐观、有希望、可期待的正向的心理感受。这是我在今年5月-6月两个月间做大模型调研和技术升级的实际感受,很正向,很有意义。
这是对上面经验中的一个补充和强调。一定带着问题去调研、去思考,多问自己一些问题,问题一定围绕着落地的方法来展开,带着问题去调研,带着寻找解决方案的态度去看文档,会事半功倍。
文档和文章并不是要教会你它里面的全部知识点,你也不是被动的、一字不落地全篇看完,而是应该带着你的实际问题去查文档。我们是可以选择主动学习的。一次解决一个问题,一次学会一个知识点,它并不低效反而会更高效。当一个个具体的知识点被吸收,当点变成线、线串联成网,知识就在脑海中形成了一个体系、织成了一张网,那么需要的知识点也就收集完成了,你就可以快速落地实现了。
这就是变被动为主动,带着问题去学习。不要贪心学会全部,要主动选择去拿自己需要的知识。
工作不是干完了,时间花进去了,没有任何交代就可以的。一定要有所有交付、交代,哪怕是调研完证明此路不通,也要交付调研报告,有数据、有逻辑、有论证的详细说明为什么它是行不通的。如果调研完证明此路行得通,那更是要有详细的技术调研方案来证明它为何好,为何行得通。
对于每周、每天拆解出来的小目标、小任务,一定要在文档中记录下来你完成的结果是什么,一定要给出具体的交付结论。没有其他,就是交付,结果第一。
完成了就是完成了,没有完成、稀里糊涂、不了了之、蒙混过去的心态和行为绝对不要。这样蒙混过关、自欺欺人的工作态度和习惯长年累月下来侵害的不是别人的利益,而是损害自己的能力和心态,只会把自己养成一个眼高手低、不能交付、不能被信任、无法承担责任、不能背负结果的人,只会损害自己的职业口碑和形象。
在调研和应用大模型的过程中,我时常会遇到完全在知识盲区的问题,别说靠自己去解决问题了,我甚至连问题是什么都不能定位、更不能清晰的表达和用专业术语描述出来问题。我只能看到现象,完全看不见背后的问题和原因。这时候该怎么办?是为了维护自己完美的专业形象,憋着问题自己闷头解决,直到交付一个完美答案? 还是主动暴露自己的无知,请求同事、领导帮助,把一份不完善、不完全、不完美的工作结果给领导看,希望给予指导和建议呢?
当然是后者。我从不怕暴露自己知识的局限性,更不会费力去维护自己完美的形象,我只在意工作能不能完成,只在意我遇到的问题能不能解决,只在意我能不能从同事、领导那里学到东西受到启发。完美从来不在我的考虑范围内,那也是根本就不可能实现的悖论,只会显得你人很装、一直在端着、很不好沟通。
现在有了大模型的工具,我们遇到的90%的问题,只要你会给大模型提问,基本都能得到很好的解答。大模型正在成为我们不可缺少的工作助手。如果能用大模型来解决的问题,我就自己解决了。对于解决不了的问题,我完全看不明白的问题,我就会直接找领导、同事沟通,请求帮助。
大模型的调研和开发阶段,因为很多未知的缘故,我刚开始的两三周内几乎是每天一汇报工作的,不管出来的结论多少,都拿着调研的结果、问题去找领导讨论、反馈,讲讲完成了哪些、遇到了哪些过不去的困难点,寻求指导和建议。有时候领导会知道如何解决,或者让我找谁帮忙解决,有时候他也不知道,我们就一起查大模型,一起从中找出接下来调研工作的方向。这个过程中,谁都不完美,谁都有知识盲区。我可能阶段性交付了一个完全错误、部分错误、完全不可采纳、部分不可采纳的结果或报告,但在不断的反馈、沟通、修正中,一次次的调整对的方向、对的方法,一点点的修正问题,正确的结果就这样一点点的展现了出来。
从结果反馈上来看,这是对的工作流程,也是靠谱的一个表现。是正向的结果,并不是相反的。所以,工作中一定要及时反馈工作进展和困难,不要害怕暴露自己的无知和短板,完成比完美重要。完成也是结果第一的一个体现。
另一个工作中的重要心态是,初期阶段我们学习新知识并不是为了成为权威的专家,而是为了能应用它解决自己的实际问题。就像汽车,先抱着能用、会开的心态去了解和掌握,等熟练上路了,再去了解背后的机械学、物理学、动力学的原理。一定不要反过来,一下子蒙头扎到空气动力学、物理学的理论学习当中去。那只会把自己搞懵掉,更无法指望你快速开车上路了。
记住,工作只要完成,不要完美。
我今年很感激自己的一个点就是又一次选择了迎难而上。
今年3月份的时候老板让我们自己做一个选择,是继续深耕在机器学习/深度学习/数据开发赛道,做组里现有的业务,还是选择大模型方向,去跟算法研究院的那帮做多模态、大模型的人碰一碰。前者是我们熟悉的赛道,后者是难而未知的赛道。不论哪个赛道都挤满了人,尤其是后者,挤满了一堆C9和海外名校毕业的博士生,想跟他们玩简直不可能的,半路出家基础还是太薄弱了。老板也给打好了预防针,如果选择了这个赛道就意味着需要趴下来两年补技术基础,别妄想能跟那群一堆在顶会发论文的人去抢晋升名额。在难与易之间,我选择了难。在熟悉和未知之间,我选择了冲一下未知。所以,现在组里其实分了两个方向,一组人做传统的机器学习/深度学习算法,另一组人去探索和应用大模型。我属于后者。
3月份做完选择之后,我就因为618大促项目去1号楼封闭了两个月,基本就是996的节奏,直到5月份上线交付回到组里。在封闭开发期间,4月份的时候,我给自己制定了大模型学习计划,在漫无目的的乱学了一通之后,选定了一本书做入门。是一个英文原版的书,写的非常好,我每天都看20多页,书大约400页,在两周多的内时间翻完了,很受启发,有了思路和整体的一个脉络。在996的封闭开发环境下,我几乎没有晚上10点前下班过,也没有什么时间运动了,但一定要每天抽时间去读书,去布局大模型的学习。
所以在5月份回归组里后,开始调研大模型,我其实早就有了一些基础的,并不是完全未知的状态。这也就是为什么我能快速落地去调研、每周都能有一个交付。这是有前期的投入和布局的。两个月的时间下来,到现在我已经完成交付了两个具体业务的大模型方案开发上线交付,也已经开始能做复杂大小模型综合方案的设计了,开始向着灵活应用去开发了。
这两个月的过程不得不说很痛苦,我也几乎没有晚上9点前下班,做到晚上10点、11点是常态。遇到调不通的代码、看不懂的问题非常常见,这周一的晚上就几乎彻夜无眠,压力大到奔溃,第二天起来也是眼肿到不行。但努力调整心态,让自己安静下来,专注去做具体的小任务,投入去完成具体的小目标,一旦解决一个问题,豁然开朗,心情就开朗起来,又会开心的继续去往前走。[当然组里不止我一个人每天晚上9点后下班,而是整组的人几乎都在卷。做不出东西就走人,做不出成果团队就没了,这在互联网公司是常态。干到凌晨2点半才下班的大佬们大有人在,比不了。到底什么重要,这是个人的价值观取向、重要性排序问题,无可厚非,自己认可即可。虽然经常觉得很累,但有时候成就感带来的快乐会远超这份辛苦。]
很感谢自己的就是该做选择的时间节点,都没有选择容易的那个。数学专业毕业转去做程序员是对的,数据挖掘转去做算法工程是对的,算法工程去做大模型应用也是对的。每隔几年该做选择的时间点,都选择了做难而正确的事,并且真的沉下心来去做去学。过去的事实也的确证明了付出就会有回报,虽然它可能会需要时间来体现,但我的确都做到了。事虽小,但于我很很重要。
做难而正确的事,终身成长,很有意思,乐此不疲。
感恩自己。
去年开始心态上有个很好的发现认识,就是生活当中所谓的大事,其实都是很多小事的组合或叠加。比如在人多场合的演讲、报告或社交,这种能力的练就并不一定要很多很多次的大场合,其实日常的工作汇报、分享、聚餐社交都是一次又一次很好的练习场合。适合在大场合用的技巧,其实并不是不完全适合小场合,其他它们本质是完全相通的。由小看大,由大见小,是当你见过了多次大江大河后会有的感悟。
所以,我不在期待所谓的大场合、大事件,而是抓住、利用日常中的每一个小场合、小事件,比如团建社交、工作汇报、日常决策、日常沟通。开始将注意力集中到生活当中的具体事物上,开始发觉、关注自己会因为什么情况的刺激而变得紧张、说话速度变快,会在工作中因为什么原因而沮丧、泄气、放弃思考,会在什么场合下比其他人更缺乏自信,如何在不得不社交的部门、团队聚餐场合得体的社交,如何在沟通中更利他,如何让语言沟通起到更好的润滑降燥的作用....
当开始关注、思考这些日常小事,并认真的把这些小问题当作大问题来看,来寻找前人的经验和思考,然后发现这些所谓的小事,综合起来就是一个人整体的气质、性格、性情、为人处事的智慧的体现。有了这种认识和发现后,我就再也不遗憾、纠结是不是我缺少一个所谓的机会。因为生活给了我无数次机会,只是自己没看见。而且它给的无数次机会,我都没给出好的回答。更大的场合也不过这些“日常小事”在另一种场合的体现而已,又怎能期待我一朝觉醒,给出一鸣惊人的回应呢?这种幻想简直太可笑了。
所以,今年开始注重身边中的小事,借小事修人生之大智慧,所感甚多。
今年上半年很大的一个改变就是说话的方式变了。周围的同事们惊讶地表示我是不是去进修了语言的艺术。其实我最大的改变就是意识到说话是财,所以在说话时多采用夸赞的方式,语言上都是利他性的、总是积极发现他人做的好的一面,不在口舌上做一时的意气之争。多加了倾听、多些赞同,再用引导、利他地方式提出自己的看法和建议,带给人的感受就会很不一样。
不仅是工作,生活中也是,我认为人大于事,事再重要也没有人重要。就算事再重要,最终推动执行的还得是人。所以,把人先安抚住,情绪管理好,事最后才能做好。这也算是对人性的一个理解和拿捏吧。
这让我意识到说话是财,好的沟通不仅是让人际关系变好,更是让事情推动的效率变高。尤其我遇到的大都是很值得信赖、办事能力又都很强很专业的同事们,好的讲话语言不仅仅是锦上添花,更是好的人际关系的积累。
这是我今年新感悟出来的一个绝妙的心态。凡事发生皆有利于我,把它找出来。意思是,事情的发生可能结果是坏的、是会让我体会到痛苦的过程的、是会让我丧失一些心力的,它是坏的,没关系,这是允许的。但这件事的发生,必有其有利于我的地方,让我有所收获、感悟或成长的,把这个点找出来,这就是事件发生有利于我的地方。
举个大多数人可能都会遇到的例子,比如某一次的晋升失败,比如某一次的恋爱失败。虽然结果是坏的,但过程中会有发生的有利于自己的地方,把它找出来。比如你在追人的过程中,成功减下了体重、练就了好身材、懂得了如何爱自己、懂得哪种人才是最适合自己的;或者你总结了晋升失败的经验,学会了更好的做汇报、做工作总结、或者逼自己一把发了一篇论文....
事情发生,只盯着坏的部分,永远在伤心、永远走不出来,只会让自己伤的更重、坏的更彻底。换个心态,凡事发生皆有利于我,把每一次好的、坏的事都找出其中让自己成长的地方,那么每一件事的发生都是为了让自己成为更好的自己,绝妙的心态。凡事发生皆有利于我,把它找出来,人生妙不可言。