sft

批判式微调（CFT）：原理、架构与高效推理训练新范式

⚙️一、核心定义与技术原理基本概念CFT是一种替代传统监督微调（SFT）的训练范式，其核心是让模型学习批判错误响应而非简单模仿正确答案。

·2025-07-26 18:44

大模型就业方向

同任选：万卡集群的训练经验（包括预训练、sft、强化学习）、踩坑经验

·2025-07-26 07:27

使用llamafactory微调参数介绍&调参经验分享

微调经验分享微调数据构建SFT语料构建微调常见参数推荐自动化微调代码实现推荐参考网址基于llamafactory微调微调操作指南具体的基于llamafactory微调操作指南，可以见另一篇笔记：基于NPU

大侠教你学AI·2025-07-24 21:32

LLaMA-Factory快速入门

文章目录1.背景2.环境准备2.1硬件要求2.2CUDA和Pytorch环境2.3模型下载2.4模型推理3.自定义数据集构建4.基于LoRA的sft指令微调4.1Lora微调训练4.2动态合并LoRA的推理

@BangBang·2025-07-24 21:32

LLM指纹底层技术——人类反馈强化学习

预训练给模型注入了海量的知识（IQ），指令微调（SFT）教会了它基本的沟通技能（学会说话），RLHF对模型进行的一场深刻的“情商与价值观”教育。

9命怪猫·2025-07-24 18:44

大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”

大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程

老兵发新帖·2025-07-23 14:15

SSH服务与rsync服务配置实战

客户端提供：ssh、scp、sft

·2025-07-22 21:52

**SFT*深度实践指南：从数据构建到模型部署的全流程解析

一、SFT技术原理与定位核心定义SFT是在预训练语言模型（如LLaMA、GPT）基础上，利用标注数据优化模型以适应特定任务的技术。

大千AI助手·2025-07-22 18:34

SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景

以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（

大千AI助手·2025-07-20 03:44

SFT（监督微调）详解：零基础入门到精通，一篇详细的入门教程！

8：定义训练过程步骤9：模型评估步骤10：模型保存零基础入门AI大模型一、全套AGI大模型学习路线二、640套AI大模型报告合集三、AI大模型经典PDF籍四、AI大模型商业化落地方案学习计划：资料领取SFT

AGI大模型老王·2025-07-07 08:23

四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法

在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监

·2025-07-07 08:22

LLM模型的一些思考

对通用LLM模型进行Fine-tuning操作（SFT，supervisedfinetuning），带来的影响往往是有害的？

巴基海贼王·2025-06-27 01:08

【LLM】两篇多模态LLM综述MultiModal Large Language Models

)现有的MM-LLM的趋势：(1)从专门强调MM理解对特定模态的生成的进展，并进一步演变为任何到任何模态的转换(例如，MiniGPT-4→MiniGPT-5→NExT-GPT)；(2)从MMPT提升到SFT

心上之秋·2025-06-24 07:49

训练成本降低2000倍: 直接将推理能力注入LLM

/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作（带CoT的RL或SFT

大模型最新论文·2025-06-18 13:20

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充目前DeepSeek关于各个训练器细节的掌握

·2025-06-16 00:36

用 LoRA 对 Qwen2.5-VL 模型进行SFT - qwen2_5vl_lora_sft.yaml

用LoRA对Qwen2.5-VL模型进行SFT-qwen2_5vl_lora_sft.yamlflyfishFORCE_TORCHRUN=1llamafactory-clitrainexamples/train_lora

二分掌柜的·2025-06-15 02:37

SFT + LoRA 结合使用原理及最佳实践

SFT+LoRA结合使用原理及最佳实践一、核心原理1.技术定位SFT（监督微调）与LoRA（低秩适应）的结合，实现了全参数微调效果与高效参数更新的平衡：SFT：通过标注数据调整模型整体行为LoRA：仅训练注入的低秩矩阵

·2025-06-12 23:17

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

以下是SFT（SupervisedFine-Tuning）、RLHF（ReinforcementLearningfromHumanFeedback）和GRPO群体相对策略优化(GRPO，GroupRelativePolicyOptimization

高效匠人·2025-06-10 21:54

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。

量子-Alex·2025-06-08 18:51

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

关于在SFT之后进行DPO微调的技术解析与应用指南，结合国内外最新研究及实践案例，包含代码实现与未来优化方向：文章目录DPO的核心原理与SFT的局限性1.1SFT的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标

云博士的AI课堂·2025-06-08 10:28

对 `llamafactory-cli api -h` 输出的详细解读

llamafactory-cli是LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM

路人与大师·2025-06-07 13:36

SFT实战微调Gemma

1.运行环境搭建：虚拟环境实验要求：python3.10及以上版本pytorch1.12及以上版本，推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境，否则代码无法运行。如果python环境低于3.10则需要额外安装pipinstallbitsandbytesGemma模型链接和下载：支持直接下载模型的repo（以7b-it为例，服务器性

原味奶茶_三分甜·2025-06-06 22:53

强化学习-深度学习和强化学习领域

在深度学习和强化学习领域，SFT（SupervisedFine-Tuning）和GRPO（可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization

高效匠人·2025-06-03 04:38

CAMEL的特色功能——数据合成

前言在大模型时代，高质量数据正在成为越来越重要的一部分，然而通过人工的标注的方式获取数据的成本太高，并且真实世界的数据正迅速耗尽，于是就有了使用AI来合成数据的方法，下面我们来介绍如何使用CAMEL帮助我们合成SFT

兔兔爱学习兔兔爱学习·2025-05-24 02:16

Trl框架 SFT/GRPO训练+模板预测

confiself·2025-05-22 14:21

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT

u013250861·2025-05-22 14:21

英伟达推理模型论文速读：OpenCodeReasoning-Nemotron-32B

为解决这一问题，研究者构建了一个优越的监督微调（SFT）数据集，实

Open-source-AI·2025-05-18 19:47

0基础也能听懂：从预训练到SFT，对话模型技术栈深度拆解！

简单来说，从基座模型到对话模型的转变需要经过四个步骤：预训练基础模型、任务适应微调（SFT）、人类反馈强化学习（RLHF），以及部署和持续优化。下面，我们就一步步拆解这个过程，看看它是怎么实现的。

AGI大模型资料分享员·2025-05-16 11:42

2025最详细的学习路线，零基础入门大模型教程，让你少走99%弯路！【值得收藏】

预训练、SFT、RLHF。第三阶段：编程基础与工具使用目标：掌握大

AGI大模型学习·2025-05-10 14:03

AI 学习笔记：在 Macbook M1上对 DeepSeek进行无 GPU 环境下的 SFT微调，Transformers+LoRA，已跑通并出结果。

一、背景通用模型除了挂载知识库，去回答垂类问题以外，还有就是做SFT的微调，而大多数人其实是没有英伟达显卡的，但又挡不住学习的渴望，还想在老旧的电脑上去尝试微调，而我翻看了很多教程，都没有一个完整能够完全跑通的完整案例

极极光·2025-05-07 23:42

外网爆火大模型入门教程：llm-action：让天下没有难学的大模型

LLM预训练/SFT/RLHF…参数教程代码Alpacafullfine-turning7B从

LLM.·2025-05-06 11:29

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

背景：长思维链推理模型与过度思考现象2.1思维链（CoT）推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习（RL）3.2使用可变长度CoT数据的监督微调（SFT

绒绒毛毛雨·2025-05-04 18:00

一文读懂大模型RAG：检索、增强与生成的技术详解，收藏这一篇就够了！！

相对于成本昂贵的“Post-Training”或“SupervisedFine-Tuning”（监督微调，SFT），基于RAG的技术方案成为了一种更优选择。

AI大模型优化师·2025-05-04 06:14

PPO算法实践：手把手教会你PPO算法的工程应用

PPO模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码PPO模型的训练我们需要的模型基准模型：一般是SFT后的模型作为基准，新训练的模型不能和这个模型的概率分布相差太大

KangkangLoveNLP·2025-05-01 11:54

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

近年来主流的大模型对齐流程已趋于“三段式”：预训练→SFT（监督微调）→RLHF（强化学习阶段，常用PPO）。

云博士的AI课堂·2025-04-30 08:27

transformers之SFT和VLLM部署Llama3-8b模型

目录1.环境安装2.accelerator准备3.加载llama3和数据4.训练参数配置5.微调6.vllm部署7.Llama-3-8b-instruct的使用参考1.环境安装pipinstall-q-Ubitsandbytespipinstall-q-Ugit+https://github.com/huggingface/transformers.gitpipinstall-q-Ugit+htt

AIVoyager·2025-04-28 10:06

大模型RAG入门到实战基础教程（非常详细），保姆级教程！

相对于成本昂贵的“PostTrain”或“SFT”，基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手，详细介绍相关技术细节，并附上一份实践案例。

程序员二飞·2025-04-25 17:28

Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（六）Llama 3 已训练的大模型合并LoRA权重参数

LlaMA3系列博客基于LlaMA3+LangGraph在windows本地部署大模型（一）基于LlaMA3+LangGraph在windows本地部署大模型（二）基于LlaMA3+LangGraph在windows本地部署大模型（三）基于LlaMA3+LangGraph在windows本地部署大模型（四）

段智华·2025-04-22 13:06

LLMs基础学习（七）DeepSeek专题（4）

训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”（self-cognition）数据基本概念小结RL训练中过度拟合避免方式小结DeepSeek中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用SFT

汤姆和佩琦·2025-04-18 23:13

如何从零开始训练一个大模型，文案解析。

✅大模型微调常见流程图（逻辑顺序）预训练（Pretraining）↓指令微调SFT（SupervisedFine-tuning）↓偏好数据准备（人类偏好标注或对比）↓┌─────────────┬───

要努力啊啊啊·2025-04-13 13:31

理解大模型论文中的名词部分

模型技术报告中的名词部分进行介绍1.预训练•目标：从海量无标注文本中学语言能力（通常一次性训练大模型）•特点：训练耗时、成本高，但是基础中的基础•是否自己做：一般使用开源预训练模型，无需重复训练2.指令监督微调（SFT

要努力啊啊啊·2025-04-13 13:30

领域专用对话大模型深度适配方案

1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式SFT

Sirius Wu·2025-04-12 18:28

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索

引领对话智能新纪元：Gemma-SFT深度学习模型详解与应用探索gemma-sft项目地址:https://gitcode.com/gh_mirrors/ge/gemma-sft在这个对话式AI迅速崛起的时代

史姿若Muriel·2025-04-11 13:44

python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp

paramiko模块paramiko模块提供了ssh及sft进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包，使用之前需要安装。

weixin_39928102·2025-04-10 03:04

B站实战项目

search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分：1.需求和技术企业对于大模型的不同类型个性化需求SFT

Mia@·2025-04-08 22:57

AI安全算法工程师的算法笔记

AI安全这点事·2025-04-06 09:25

解码 Llama 3 SFT：Templates、Special Tokens 及其在微调中的作用

写在前面在进行SFT，尤其是对话微调时，有两个核心概念是绕不开的：对话模板(ChatTemplates)和特殊标记(SpecialTokens)。

kakaZhui·2025-04-02 19:54

NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。一、SFT中的参数微调方法常见的参数微调方法主要分为两类：全参微调和PEFT方法。

Chaos_Wang_·2025-04-02 05:22

RLHF微调大模型---PPO原理和代码实战

中文含义是：基于人类反馈的强化学习，用奖励模型RewardModel来训练SFT模型；生成模型使用奖励或惩罚来更新其策略，以

韭菜盖饭·2025-03-31 06:13

10篇R1相关的研究全面汇总，万字思考！

•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas

·2025-03-30 08:19

推荐频道

sft