E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sft
批判式微调(CFT):原理、架构与高效推理训练新范式
⚙️一、核心定义与技术原理基本概念CFT是一种替代传统监督微调(
SFT
)的训练范式,其核心是让模型学习批判错误响应而非简单模仿正确答案。
·
2025-07-26 18:44
大模型就业方向
同任选:万卡集群的训练经验(包括预训练、
sft
、强化学习)、踩坑经验
·
2025-07-26 07:27
使用llamafactory微调参数介绍&调参经验分享
微调经验分享微调数据构建
SFT
语料构建微调常见参数推荐自动化微调代码实现推荐参考网址基于llamafactory微调微调操作指南具体的基于llamafactory微调操作指南,可以见另一篇笔记:基于NPU
大侠教你学AI
·
2025-07-24 21:32
人工智能
机器学习
数据挖掘
python
自然语言处理
transformer
chatgpt
LLaMA-Factory快速入门
文章目录1.背景2.环境准备2.1硬件要求2.2CUDA和Pytorch环境2.3模型下载2.4模型推理3.自定义数据集构建4.基于LoRA的
sft
指令微调4.1Lora微调训练4.2动态合并LoRA的推理
@BangBang
·
2025-07-24 21:32
LLM
llama
LLM指纹底层技术——人类反馈强化学习
预训练给模型注入了海量的知识(IQ),指令微调(
SFT
)教会了它基本的沟通技能(学会说话),RLHF对模型进行的一场深刻的“情商与价值观”教育。
9命怪猫
·
2025-07-24 18:44
AI
深度学习
机器学习
人工智能
大模型
ai
算法
大模型训练中的“训练阶段”(如Pre-training、
SFT
、RLHF等)与“微调技术”
大模型训练中的“训练阶段”(如Pre-training、
SFT
、RLHF等)与“微调技术”(如Full-tuning、Freeze-tuning、LoRA、QLoRA)是两类不同维度的概念,二者共同构成模型优化的完整流程
老兵发新帖
·
2025-07-23 14:15
人工智能
深度学习
机器学习
SSH服务与rsync服务配置实战
客户端提供:ssh、scp、
sft
·
2025-07-22 21:52
*
SFT
深度实践指南:从数据构建到模型部署的全流程解析
一、
SFT
技术原理与定位核心定义
SFT
是在预训练语言模型(如LLaMA、GPT)基础上,利用标注数据优化模型以适应特定任务的技术。
大千AI助手
·
2025-07-22 18:34
人工智能
Python
#
OTHER
人工智能
深度学习
算法
大模型
SFT
微调
Lora
SFT
:大型语言模型专业化定制的核心技术体系——原理、创新与应用全景
以下基于权威期刊、会议论文及技术报告,对监督微调(SupervisedFine-Tuning,
SFT
)的技术框架、创新方法与实际应用进行系统梳理:一、核心定义与技术原理基本概念
SFT
是在预训练语言模型(
大千AI助手
·
2025-07-20 03:44
人工智能
Python
#
OTHER
语言模型
人工智能
自然语言处理
深度学习
机器学习
微调
SFT
SFT
(监督微调)详解:零基础入门到精通,一篇详细的入门教程!
8:定义训练过程步骤9:模型评估步骤10:模型保存零基础入门AI大模型一、全套AGI大模型学习路线二、640套AI大模型报告合集三、AI大模型经典PDF籍四、AI大模型商业化落地方案学习计划:资料领取
SFT
AGI大模型老王
·
2025-07-07 08:23
人工智能
程序员
大模型
学习
AI大模型
大模型微调
SFT
四种微调技术详解:
SFT
监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
在这篇文章中,我们将深入探讨四种不同的人工智能大语言模型微调技术:
SFT
监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分:
SFT
监
·
2025-07-07 08:22
LLM模型的一些思考
对通用LLM模型进行Fine-tuning操作(
SFT
,supervisedfinetuning),带来的影响往往是有害的?
巴基海贼王
·
2025-06-27 01:08
nlp
【LLM】两篇多模态LLM综述MultiModal Large Language Models
)现有的MM-LLM的趋势:(1)从专门强调MM理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4→MiniGPT-5→NExT-GPT);(2)从MMPT提升到
SFT
心上之秋
·
2025-06-24 07:49
语言模型
人工智能
自然语言处理
训练成本降低2000倍: 直接将推理能力注入LLM
/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作(带CoT的RL或
SFT
大模型最新论文
·
2025-06-18 13:20
深度学习
人工智能
语言模型
自然语言处理
llama
【慢摹】TRL训练器细节详解(
SFT
/PPO/DPO/GRPO)
序言本文总结一下目前TRL典型的训练器的实现细节(
SFT
,PPO,DPO,GRPO),也是对上一文【速写】PPOTrainer样例与错误思考(少量DAPO)的补充目前DeepSeek关于各个训练器细节的掌握
·
2025-06-16 00:36
用 LoRA 对 Qwen2.5-VL 模型进行
SFT
- qwen2_5vl_lora_
sft
.yaml
用LoRA对Qwen2.5-VL模型进行
SFT
-qwen2_5vl_lora_
sft
.yamlflyfishFORCE_TORCHRUN=1llamafactory-clitrainexamples/train_lora
二分掌柜的
·
2025-06-15 02:37
Qwen
LoRA
Qwen
qwen
SFT
+ LoRA 结合使用原理及最佳实践
SFT
+LoRA结合使用原理及最佳实践一、核心原理1.技术定位
SFT
(监督微调)与LoRA(低秩适应)的结合,实现了全参数微调效果与高效参数更新的平衡:
SFT
:通过标注数据调整模型整体行为LoRA:仅训练注入的低秩矩阵
·
2025-06-12 23:17
人工智能-
SFT
(Supervised Fine-Tuning)、RLHF 和 GRPO
以下是
SFT
(SupervisedFine-Tuning)、RLHF(ReinforcementLearningfromHumanFeedback)和GRPO群体相对策略优化(GRPO,GroupRelativePolicyOptimization
高效匠人
·
2025-06-10 21:54
人工智能
人工智能
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(
SFT
)作为初步步骤,展现了卓越的推理能力。
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
【大模型实践解惑】 如何在 Supervised Fine‑Tuning (
SFT
) 之后进行 Direct Preference Optimization (DPO) 微调?
关于在
SFT
之后进行DPO微调的技术解析与应用指南,结合国内外最新研究及实践案例,包含代码实现与未来优化方向:文章目录DPO的核心原理与
SFT
的局限性1.1
SFT
的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标
云博士的AI课堂
·
2025-06-08 10:28
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
机器学习
SFT
pytorch
大模型
DPO
强化学习
DPO
微调
对 `llamafactory-cli api -h` 输出的详细解读
llamafactory-cli是LlamaFactory项目提供的命令行接口工具,它允许用户通过命令行参数来配置和运行大型语言模型的各种任务,如预训练(PT)、有监督微调(
SFT
)、奖励模型训练(RM
路人与大师
·
2025-06-07 13:36
人工智能
深度学习
SFT
实战微调Gemma
1.运行环境搭建:虚拟环境实验要求:python3.10及以上版本pytorch1.12及以上版本,推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境,否则代码无法运行。如果python环境低于3.10则需要额外安装pipinstallbitsandbytesGemma模型链接和下载:支持直接下载模型的repo(以7b-it为例,服务器性
原味奶茶_三分甜
·
2025-06-06 22:53
深度学习
人工智能
强化学习-深度学习和强化学习领域
在深度学习和强化学习领域,
SFT
(SupervisedFine-Tuning)和GRPO(可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization
高效匠人
·
2025-06-03 04:38
人工智能
深度学习
人工智能
CAMEL的特色功能——数据合成
前言在大模型时代,高质量数据正在成为越来越重要的一部分,然而通过人工的标注的方式获取数据的成本太高,并且真实世界的数据正迅速耗尽,于是就有了使用AI来合成数据的方法,下面我们来介绍如何使用CAMEL帮助我们合成
SFT
兔兔爱学习兔兔爱学习
·
2025-05-24 02:16
智能体
语言模型
人工智能
算法
python
Trl框架
SFT
/GRPO训练+模板预测
1、
SFT
训练#Copyright2025TheHuggingFaceTeam.Allrightsreserved.
confiself
·
2025-05-22 14:21
人工智能
语言模型
强化学习:第三方库【TRL - Transformer Reinforcement Learning】
OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(
SFT
u013250861
·
2025-05-22 14:21
RL/强化学习
transformer
深度学习
人工智能
英伟达推理模型论文速读:OpenCodeReasoning-Nemotron-32B
为解决这一问题,研究者构建了一个优越的监督微调(
SFT
)数据集,实
Open-source-AI
·
2025-05-18 19:47
前沿
人工智能
算法
深度学习
大模型
0基础也能听懂:从预训练到
SFT
,对话模型技术栈深度拆解!
简单来说,从基座模型到对话模型的转变需要经过四个步骤:预训练基础模型、任务适应微调(
SFT
)、人类反馈强化学习(RLHF),以及部署和持续优化。下面,我们就一步步拆解这个过程,看看它是怎么实现的。
AGI大模型资料分享员
·
2025-05-16 11:42
人工智能
深度学习
机器学习
产品经理
语言模型
大模型
开源
2025最详细的学习路线,零基础入门大模型教程,让你少走99%弯路!【值得收藏】
预训练、
SFT
、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型学习
·
2025-05-10 14:03
学习
人工智能
AI大模型
程序员
Agent
AI
大模型
AI 学习笔记:在 Macbook M1上对 DeepSeek进行无 GPU 环境下的
SFT
微调,Transformers+LoRA,已跑通并出结果。
一、背景通用模型除了挂载知识库,去回答垂类问题以外,还有就是做
SFT
的微调,而大多数人其实是没有英伟达显卡的,但又挡不住学习的渴望,还想在老旧的电脑上去尝试微调,而我翻看了很多教程,都没有一个完整能够完全跑通的完整案例
极极光
·
2025-05-07 23:42
人工智能
deepseek
微调
SFT
lora
macbook
微调
纯
CPU
微调
外网爆火大模型入门教程:llm-action:让天下没有难学的大模型
LLM预训练/
SFT
/RLHF…参数教程代码Alpacafullfine-turning7B从
LLM.
·
2025-05-06 11:29
人工智能
llama
langchain
大语言模型
Ollama
LLM
大模型
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
背景:长思维链推理模型与过度思考现象2.1思维链(CoT)推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习(RL)3.2使用可变长度CoT数据的监督微调(
SFT
绒绒毛毛雨
·
2025-05-04 18:00
搜索推荐
语言模型
人工智能
自然语言处理
一文读懂大模型RAG:检索、增强与生成的技术详解,收藏这一篇就够了!!
相对于成本昂贵的“Post-Training”或“SupervisedFine-Tuning”(监督微调,
SFT
),基于RAG的技术方案成为了一种更优选择。
AI大模型优化师
·
2025-05-04 06:14
人工智能
AI大模型
语言模型
RAG
agi
ai
LLM
PPO算法实践:手把手教会你PPO算法的工程应用
PPO模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码PPO模型的训练我们需要的模型基准模型:一般是
SFT
后的模型作为基准,新训练的模型不能和这个模型的概率分布相差太大
KangkangLoveNLP
·
2025-05-01 11:54
强化学习
算法
机器学习
人工智能
深度学习
神经网络
自然语言处理
【大模型解惑】大模型如何在 Supervised Fine‑Tuning (
SFT
) 之后进行 PPO 强化学习微调?
近年来主流的大模型对齐流程已趋于“三段式”:预训练→
SFT
(监督微调)→RLHF(强化学习阶段,常用PPO)。
云博士的AI课堂
·
2025-04-30 08:27
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
大模型
强化学习
SFT
PPO
预训练
监督学习
机器学习
transformers之
SFT
和VLLM部署Llama3-8b模型
目录1.环境安装2.accelerator准备3.加载llama3和数据4.训练参数配置5.微调6.vllm部署7.Llama-3-8b-instruct的使用参考1.环境安装pipinstall-q-Ubitsandbytespipinstall-q-Ugit+https://github.com/huggingface/transformers.gitpipinstall-q-Ugit+htt
AIVoyager
·
2025-04-28 10:06
transformers
NLP
llama
llama3
微调
vllm
大模型RAG入门到实战基础教程(非常详细),保姆级教程!
相对于成本昂贵的“PostTrain”或“
SFT
”,基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手,详细介绍相关技术细节,并附上一份实践案例。
程序员二飞
·
2025-04-25 17:28
java
数据库
缓存
人工智能
前端
深度学习
开发语言
Llama模型家族之使用 Supervised Fine-Tuning(
SFT
)微调预训练Llama 3 语言模型(六)Llama 3 已训练的大模型合并LoRA权重参数
LlaMA3系列博客基于LlaMA3+LangGraph在windows本地部署大模型(一)基于LlaMA3+LangGraph在windows本地部署大模型(二)基于LlaMA3+LangGraph在windows本地部署大模型(三)基于LlaMA3+LangGraph在windows本地部署大模型(四)
段智华
·
2025-04-22 13:06
深入理解
ChatGPT
LLaMA-Factory
Llama3
LLMs基础学习(七)DeepSeek专题(4)
训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”(self-cognition)数据基本概念小结RL训练中过度拟合避免方式小结DeepSeek中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用
SFT
汤姆和佩琦
·
2025-04-18 23:13
NLP
DeepSeek
规则化奖励
自我认知
蒸馏
RL训练过拟合
如何从零开始训练一个大模型,文案解析。
✅大模型微调常见流程图(逻辑顺序)预训练(Pretraining)↓指令微调
SFT
(SupervisedFine-tuning)↓偏好数据准备(人类偏好标注或对比)↓┌─────────────┬───
要努力啊啊啊
·
2025-04-13 13:31
大模型中的技术名词解析
算法
人工智能
理解大模型论文中的名词部分
模型技术报告中的名词部分进行介绍1.预训练•目标:从海量无标注文本中学语言能力(通常一次性训练大模型)•特点:训练耗时、成本高,但是基础中的基础•是否自己做:一般使用开源预训练模型,无需重复训练2.指令监督微调(
SFT
要努力啊啊啊
·
2025-04-13 13:30
大模型中的技术名词解析
人工智能
机器学习
深度学习
领域专用对话大模型深度适配方案
1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式
SFT
Sirius Wu
·
2025-04-12 18:28
人工智能
深度学习
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索gemma-
sft
项目地址:https://gitcode.com/gh_mirrors/ge/gemma-
sft
在这个对话式AI迅速崛起的时代
史姿若Muriel
·
2025-04-11 13:44
python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp
paramiko模块paramiko模块提供了ssh及
sft
进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包,使用之前需要安装。
weixin_39928102
·
2025-04-10 03:04
python的ssh模块
B站实战项目
search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分:1.需求和技术企业对于大模型的不同类型个性化需求
SFT
Mia@
·
2025-04-08 22:57
llm
AI安全算法工程师的算法笔记
如果你正在关注大模型最新技术,或者想深入了解AI安全研究与工程实践,强烈推荐你关注这个微信公众号AI安全这点事由AI安全方向的一线技术从业者主理,长期聚焦在两个关键方向:大模型前沿技术最新开源大模型拆解与能力分析
SFT
AI安全这点事
·
2025-04-06 09:25
人工智能
安全
笔记
解码 Llama 3
SFT
:Templates、Special Tokens 及其在微调中的作用
写在前面在进行
SFT
,尤其是对话微调时,有两个核心概念是绕不开的:对话模板(ChatTemplates)和特殊标记(SpecialTokens)。
kakaZhui
·
2025-04-02 19:54
llama
自然语言处理
人工智能
AIGC
chatgpt
多轮对话
NLP高频面试题(二十七)——
SFT
有哪几种参数微调方法?有什么优缺点?
本文将梳理
SFT
中常用的几种参数微调方法及各自的优缺点。一、
SFT
中的参数微调方法常见的参数微调方法主要分为两类:全参微调和PEFT方法。
Chaos_Wang_
·
2025-04-02 05:22
NLP常见面试题
自然语言处理
人工智能
RLHF微调大模型---PPO原理和代码实战
中文含义是:基于人类反馈的强化学习,用奖励模型RewardModel来训练
SFT
模型;生成模型使用奖励或惩罚来更新其策略,以
韭菜盖饭
·
2025-03-31 06:13
大模型
大模型微调
RLHF
人工智能
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-30 08:19
datawhale
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他