RLHF Workflow: From Reward Modeling to Online RLHF

本文是LLM系列文章,针对《RLHF Workflow: From Reward Modeling to Online RLHF》的翻译。

RLHF工作流程:从奖励建模到在线RLHF

  • 摘要
  • 1 引言
    • 1.1 之前的RLHF算法及其挑战
    • 1.2 在线迭代RLHF
    • 1.3 人类反馈近似
    • 1.4 相关工作
  • 2 作为人类反馈近似的奖励模型
    • 2.1 偏好数据集
    • 2.2 Bradley Terry奖励模型与偏好模型
    • 2.3 评估结果
  • 3 迭代策略优化
    • 3.1 监督微调
    • 3.2 迭代直接偏好学习:理论见解和算法原理
    • 3.3 实际实现细节
  • 4 模型的评估
    • 4.1 基准
    • 4.2 主要结果
  • 5 结束语和未来方向

摘要

我们在本技术报告中介绍了从人类反馈中进行在线迭代强化学习(RLHF)的工作流程,在最近的大型语言模型(LLM)文献中,该技术被广泛报道为大大优于离线学习。然而,现有的开源RLHF项目在很大程度上仍然局限于离线学习环境。在本技术报告中,我们旨在填补这一空白,并提供一个易于复制的在线迭代RLHF的详细脚本。特别是,由于在线人类反馈对于资源有限的开源社区来说通常是不可行的,我们首先使用一组不同的开源数据集构建偏好模型,并使用构建的代理偏好模型来近似人类反馈。然后,我们讨论了在线迭代RLHF背后的理论见解和算法原理,然后给出了详细的实际实现。我们训练有素的LLM,SFR-Iterative-DPO-LLaMA-3-8B-R,在LLM聊天机器人基准测试上取得了令人印象深刻的性能,包括AlpacaEval-2、Arena Hard和MT Bench,以及其他学术基准测试,如HumanEval和TruthfulQA。我们已经证明,监督微调(SFT)和迭代RLHF可以通过完全开源的数据集获得最先进的性能。此外,我们还公开了我们的模型、精心策划的数据集和全面的分步代码指南。请参阅https://github.com/RLHFlow/RLHF-Reward-Modeling和https://github.com/RLHFlow/O

你可能感兴趣的:(LLM,Daily,LLM,RL,语言模型,人工智能)