DPO

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。《大模型面试宝典》(2024版)正式发布喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们为了对齐LLM，各路研究者妙招连连。LLM很强大了，但

Python算法实战·2025-07-09 20:48

微算法科技(NASDAQ:MLGO)通过引入链接（LINK）和声誉评价机制，提高区块链委托权益证明DPo S机制的稳定性和安全性

区块链技术的发展日新月异，其中，共识机制是确保区块链网络正常运行的关键。DPoS机制作为一种高效的共识算法，在提高区块链处理效率方面具有优势，但也面临着一些挑战。例如，超级节点的中心化风险以及安全性问题可能影响网络的公平性和稳定性，这促使企业不断探索改进方法。微算法科技(NASDAQ:MLGO)创新性地将LINK和声誉评价机制融入DPoS机制。LINK增加节点间连接，提高网络冗余和弹性。声誉评价机

MicroTech2025·2025-06-24 05:11

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

从PPO、DPO到GRPO：大语言模型策略优化算法解析背景与简介大语言模型（LLM）的训练通常分为预训练和后训练两个阶段。

Gowi_fly·2025-06-16 03:26

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充目前DeepSeek关于各个训练器细节的掌握

·2025-06-16 00:36

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

关于在SFT之后进行DPO微调的技术解析与应用指南，结合国内外最新研究及实践案例，包含代码实现与未来优化方向：文章目录DPO的核心原理与SFT的局限性1.1SFT的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标

云博士的AI课堂·2025-06-08 10:28

DPO算法微调实战

代码地址见文末1.环境配置condacreate--nameflorencepython=3.11condaactivateflorencenvcc--versionpip3install-ihttps://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/torchtorchvisiontorchaudio--index-urlhttps://downlo

樱花的浪漫·2025-06-07 17:02

对 `llamafactory-cli api -h` 输出的详细解读

LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM）、基于人类反馈的强化学习（PPO、DPO

路人与大师·2025-06-07 13:36

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

序言问题源于PPOTrainer里并没有跟SFTTrainer类似的peft_config参数，而SFTTrainer在带和不带peft_config参数的情况下分别对应高效微调和全量微调。自然就会想到是否可以把PPO和PEFT结合，但是目前peft包和trl包上似乎还是存在这种兼容性的问题。另一个问题就是奖励函数的设置，这个是RL从诞生以来一直存在的一个老大难问题。现在有很多方案，但是我始终觉得

囚生CY·2025-06-06 07:08

DPO（Direct Preference Optimization）详解

DPO（DirectPreferenceOptimization）训练详解一、什么是DPO？

要努力啊啊啊·2025-05-30 10:18

GRPO / PPO / DPO 在医疗场景下的 LLM 优化与源码实战分析

个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到

观熵·2025-05-28 19:03

模型微调DPO入门

一、定义定义数据集格式llamafactory训练案例入门文档阅读二、实现定义DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好，DPO相较于RLHF

贾亚飞·2025-05-23 07:08

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(PPO),andDirectPreferenceOptimization(DPO

u013250861·2025-05-22 14:21

利用比较预言机处理模糊的偏好数据

PreferenceAlignmentviaComparisonOracles论文地址https://arxiv.org/pdf/2505.05465模型地址https://huggingface.co/ComparisonPO作者背景哥伦比亚大学，纽约大学，达摩院动机DPO

大模型最新论文速读·2025-05-14 10:34

DPO（Direct Preference Optimization，直接偏好优化）

1.背景与动机1.1什么是DPO？DPO（直接偏好优化）是一种用于优化大语言模型（LLM）以使其输出更符合人类偏好的方法。

爱看烟花的码农·2025-05-06 02:33

浙大：指导机制优化LLM偏好对齐

标题：Pre-DPO:ImprovingDataUtilizationinDirectPreferenceOptimizationUsingaGuidingReferenceModel来源：arXiv,

大模型任我行·2025-05-02 13:42

2023年第十四届蓝桥杯省赛C++ 大学生A组

目录试题A幸运数分析枚举O(K)试题B有奖问答分析DFS试题C平方差分析枚举O（n^3）因数分解O(n*sqrt(n))奇偶判断O(n)试题D更小的数分析动态规划DPO(n^2)试题E颜色平衡树分析试题

qq_56607982·2025-04-22 13:37

72B模型DPO微调 | DPO的大模型的技术点、DPO的核心思想

一、DPO的大模型的技术点直接偏好优化（DirectPreferenceOptimization，DPO）是当前将大型语言模型（LLM）与人类偏好对齐的热门方法之一。

大模型本地部署_·2025-04-21 03:21

如何从零开始训练一个大模型，文案解析。

Pretraining）↓指令微调SFT（SupervisedFine-tuning）↓偏好数据准备（人类偏好标注或对比）↓┌─────────────┬─────────────┐↓↓奖励模型RM直接偏好优化（DPO

要努力啊啊啊·2025-04-13 13:31

领域专用对话大模型深度适配方案

架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式SFT+DPO

Sirius Wu·2025-04-12 18:28

LLM架构与关键技术解析

监督微调和偏好对齐是提升LLM性能和应用效果的重要技术，通过直接偏好优化（DPO）和近端策略优化（PPO）等方法，

XianxinMao·2025-04-08 02:18

DPO vs PPO

大语言模型强化微调方法DPO（DirectPreferenceOptimization）PPO简单回顾在PPO中，存在两个待训练的网络：Valuenetwork与Policynetwork。

LuckyAnJo·2025-04-01 22:24

MiniMind：完全从 0 训练自己的大模型

是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。

三花AI·2025-03-22 15:49

DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计

Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO

iiiiii11·2025-03-22 14:17

MiniMind

DPO数据1和DPO数据2：这两个数

亚伯拉罕·黄肯·2025-03-22 14:46

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

大模型学习笔记 - LLM 对齐优化算法 DPO

LLM-DPOLLM-DPODPO概述DPO目标函数推导DPO目标函数梯度的推导DPO概述大模型预训练是从大量语料中进行无监督学习，语料库内容混杂，训练的目标是语言模型损失，任务是nexttokenprediction

JL_Jessie·2025-02-10 03:54

LLM 算法工程师的速成指南：微调、强化学习微调与偏好微调

②偏好微调(PreferenceFine-Tuning,PFT)：采用直接偏好优化(例如DirectPreferenceOptimization,DPO)算法，通过比较不同的模型输出，让AI能够学习并区分

大模型玩家·2025-02-05 16:24

Llama 3：开源大模型的里程碑式突破

标题：Llama3：开源大模型的里程碑式突破文章信息摘要：Meta通过Llama3展现了开源LLM的重大突破：采用超大规模训练数据和多阶段训练方法（SFT、rejectionsampling、PPO和DPO

XianxinMao·2025-01-30 08:50

LLM架构与优化：从理论到实践的关键技术

重点分析了预训练、后训练、监督微调（SFT）和偏好对齐（PreferenceAlignment）在提升模型性能中的作用，并对比了直接偏好优化（DPO）

XianxinMao·2025-01-28 20:14

Direct Preference Optimization (DPO): 一种无需强化学习的语言模型偏好优化方法

论文地址：https://arxiv.org/pdf/2305.182901.背景与挑战近年来，大规模无监督语言模型（LM）在知识获取和推理能力方面取得了显著进展，但如何精确控制其行为仍是一个难题。现有的方法通常通过**强化学习从人类反馈（RLHF）**来引导模型行为，但RLHF存在以下问题：复杂性高：RLHF需要先训练一个奖励模型来反映人类偏好，然后使用强化学习来微调语言模型，使其在最大化奖励的

Yuleave·2025-01-26 09:12

大模型对齐方法笔记一：DPO及其变种IPO、KTO、CPO

DPO的主要思想是在强化学习的目标函数中建立决策函数与奖励函数之间的关系，以规避

chencjiajy·2024-09-01 15:36

E. Linear Kingdom Races

https://codeforces.com/problemset/problem/115/E线段树优化dpO(n2)->O(nlogn)分析题意发现可以有暴力dpdp(i)是前i条路最大利润dp(i)

Lanthanmum·2024-08-26 13:09

强化学习入门到不想放弃-1

本来想写到深度学习里的，但是线下和别人聊RLHF，和PPO,DPO的时候，我发现大家一脑袋问号，其实也正常，深度学习里面数学的东西没那么多，入门容易一点，强化学习（现在也都谈强化深度学习，或者深度强化学习了

周博洋K·2024-02-20 06:29

产品不良率计算公式--如PPM，DPPM，DPMO等

PPM:partpermillion百万产品中的不良品数DPPM:Defectpartpermillion每百万缺陷机会中的不良品数DPU：Defectperunit每个产品缺陷数DPO：Defectperopport

ancy_i_cv·2024-02-10 08:47

十分钟读完「斯坦福提出的革新AI训练的新算法DPO」论文

斯坦福新算法DPO革新AI训练!

夕小瑶·2024-01-18 12:15

LLaMA Efficient Tuning

文章目录LLaMAEfficientTuning安装数据准备浏览器一体化界面单GPU训练train_bash1、预训练pt2、指令监督微调sft3、奖励模型训练rm4、PPO训练ppo5、DPO训练dpo

小田_·2024-01-10 07:22

强化学习的优化策略PPO和DPO详解并分析异同

目录PPO（ProximalPolicyOptimization）工作原理实现步骤DPO（DistributedProximalPolicyOptimization）工作原理实现步骤相同点不同点1、PPO

samoyan·2023-12-30 19:21

DPO讲解

DPO是斯坦福团队基于PPO推导出的优化算法，去掉了RW训练和RL环节，只需要加载一个推理模型和一个训练模型，直接在偏好数据上进行训练即可：损失函数如下：LDPO(πθ;πref)=−E(x,yw,yl

transformer_WSZ·2023-12-29 17:45

人类偏好导向：DPO技术重塑SDXL-1.0图像生成

斯坦福大学研究团队最近提出的Diffusion-DPO方法，旨在将这一理念应用于图像生成模型，特别是在文本到图像的转换领域。

努力犯错·2023-12-27 02:57

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

为了解决这个问题，本文引入了一种新颖的策略：幻觉感知直接偏好优化（HA-DPO）。我们的方法将幻觉问题视为一个独特的偏好选择问题，其中模型经过训练，在出现同一图像的两个响应（一

Mars_prime·2023-12-21 08:07

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

前言本文的成就是一个点顺着一个点而来的，成文过程颇有意思首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral7B(其背后的公司MistralAI号称欧洲的OpenAI，当然你权且一听，切勿过于当真)而由Mistral7B顺带关注到了基于其微调的Zephyr7B，而一了解Zephyr7B的论文，发现它还挺有意思的，即它和ChatGPT三

v_JULY_v·2023-11-07 08:36

Zephyr-7B-β ：类GPT的高速推理LLM

Zephyr-7B-β是该系列中的第二个模型，是Mistralai/Mistral-7B-v0.1的微调版本，使用直接偏好优化(DPO)在公开可用的合成数据集上进行训练。

新缸中之脑·2023-11-03 10:59

EXIN DPO 数据保护官来啦

根据GDPR要求，核心活动涉及处理或存储大量的欧盟公民数据、处理或存储特殊类别的个人数据（健康记录、犯罪记录）的组织必须指定数据保护官DPO。

安全牛课堂牛油果·2023-11-02 14:26

57 最长递增子序列

最长递增子序列题解1DPO(n2)O(n^{2})O(n2)题解2贪心+二分搜索（ref.fromLeetcode）O(nlog(n))O(nlog(n))O(nlog(n))鼓掌！！

Rocoberry_团子·2023-10-18 11:41

LLaMA Efficient Tuning 主流大模型的高效工具【预训练+指令监督微调】

LLaMAEfficientTuning，它是一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具，包括预训练、指令监督微调、奖励模型训练、PPO训练、DPO

张志翔的博客·2023-09-26 19:59

EOS已来，你还不来？

二．EOS的创新1.DPO

COINBIG·2023-09-23 17:07

[NLP] LLM---＜训练中文LLama2(五)＞对SFT后的LLama2进行DPO训练

当前关于LLM的共识大型语言模型（LLM）使NLP中微调模型的过程变得更加复杂。最初，当ChatGPT等模型首次出现时，最主要的方法是先训练奖励模型，然后优化LLM策略。从人类反馈中强化学习（RLHF）极大地推动了NLP的发展，并将NLP中许多长期面临的挑战抛在了一边。基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback，RLHF)事实上已成为GPT

舒克与贝克·2023-09-17 15:37

关于Raspberry 2使用360随身WiFi、小度等等WiFi

来查看加载的usb网上现在可以查到非常多的现在流行的一款随身WiFi都是MT7601然后从MTK下载了对应驱动，安装网上教程编译了，零报错，但是没有mt7601Usta.koko文件已经生成，路径为/DPO_MT7601U_LinuxSTA

Bidjc·2023-09-04 12:17

启动Docker容器报错docker: Error response from daemon: driver failed programming external connectivity on x

3dxxxxxxxxxx52eba0d979be0d4f3e926d2f04634db9e3d3944):(iptablesfailed:iptables--wait-tnat-ADOCKER-ptcp-d0/0--dpo

傻小胖·2023-08-31 12:30

使用 DPO 微调 Llama 2

简介基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback，RLHF)事实上已成为GPT-4或Claude等LLM训练的最后一步，它可以确保语言模型的输出符合人类在闲聊或安全性等方面的期望。然而，它也给NLP引入了一些RL相关的复杂性:既要构建一个好的奖励函数，并训练一个模型用以估计每个状态的价值(value);又要注意最终生成的LLM不能与原始模型相

Hugging Face·2023-08-24 12:57

推荐频道

DPO