论文阅读:2023 ICLR Safe RLHF: Safe Reinforcement Learning from Human Feedback

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback
安全 RLHF:通过人类反馈进行安全强化学习

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

https://www.doubao.com/chat/3556303170287106

国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver

文章目录

  • 速览
  • 论文阅读
    • Abstract(摘要)
    • 1 Introduction(引言)
    • 2 预备知识
    • 3 方法:安全RLHF
      • 3.1 无害性和有用性的人类偏好
      • 3.2 偏好模型拟合:奖励模型和成本模型
      • 3.3 安全强化学习
    • 5 Related Works(相关工作)
    • 6 Limitations and Future Work(局限性与未来工作)
    • 7 Ethic Discussion(伦理讨论)
    • 8 Conclusion(结论)
  • 论文内容翻译
    • 摘要
    • 1 引言
    • 2 预备知识
    • 3 方法:安全RLHF
      • 3.1 无害性和有用性的人类偏好
      • 3.2 偏好模型拟合:奖励模型和成本模型
      • 3.3 安全强化学习
    • 5 相关工作
  • 数据集

速览

  • 研究动机

你可能感兴趣的:(论文阅读,论文翻译,论文阅读)