论文阅读:Training language models to follow instructions with human feedback

Training language models to follow instructions with human feedback

LLMs之InstructGPT:《Training language models to follow instructions with human feedback》翻译与解读

https://arxiv.org/pdf/2203.02155

b站视频:https://www.bilibili.com/video/BV17Bc9e6EzG/

文章目录

  • Training language models to follow instructions with human feedback
  • 摘要
  • 1 Introduction
  • 2 Related work
    • 1. 语言模型对齐与人类反馈学习的研究
      • 背景:模型对齐和人类反馈强化学习(RLHF)的历史
      • 类似领域的研究
      • 论文的贡献
    • 2. 模型对齐的定义与行为问题
      • 什么是“对齐”?
      • 现有研究与方法
    • 3. 训练语言模型遵循指令的研究
      • 跨任务泛化的研究
      • 相关研究成果
      • 其他领域的应用
    • 4. 语言模型危害的评估
      • 问题背景
      • 现有工作
      • 挑战
    • 5. 修改语言模型行为以减少危害
      • 已有方法
      • 生成文本的方向控制
  • 3 Methods and experimental details
    • 3.1 高级方法 (High-level methodology)
    • 3.2 数据集 (Dataset)
    • 3.3 任务 (Tasks)
    • 3.4 人类数据收集 (Human data collection)
    • 3.5 模型(Models)
    • 3.6 Evaluation
  • 4 Results
    • 4.1 Results on the API Distribution(API 提示分布的结果)
    • 4.2 Results on Public NLP Datasets(在公共NLP数据集上的结果)
    • 4.3 Qualitative Results
  • 5 讨论(Discussion)
    • 5.1 对齐研究的意义 (Implications for Alignment Research)
    • 5.2 局限性 (Limitations)
    • 5.3 更广泛的影响 (Broader Impacts)
  • 补充
    • PPO是什么?

摘要

这篇论文的目标是通过引入一种基于人类反馈的训练方法,来让语言模型更好地按照用户意图行事。这是因为大规模语言模型虽然强大,但有时候会生成不准确、有偏见或者对用户无帮助的内容,这说明它们和用户的需求之间存在一定的“错位”。论文提出了一个新方法,将 GPT-3 进行优化ÿ

你可能感兴趣的:(论文阅读,语言模型,人工智能,自然语言处理)