英伟达:LLM多任务和语言的偏好数据集

英伟达:LLM多任务和语言的偏好数据集_第1张图片

标题:HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages
来源:arXiv, 2505.11475

摘要

偏好数据集对于使用人类反馈强化学习(RLHF)训练通用领域、指令遵循语言模型至关重要。每次后续数据发布都会提高对未来数据收集的期望,这意味着需要不断提高公开可用偏好数据的质量和多样性。
为了满足这一需求,我们引入了Helper3-Preference,这是一个许可(CC-BY-4.0)、高质量、人工注释的偏好数据集,包含40000多个样本。这些样本涵盖了大型语言模型(LLM)的各种现实世界应用,包括与STEM、编码和多语言场景相关的任务。
使用Helper3-Preference,我们训练了在RM Bench(82.4%)和JudgeBench(73.7%)上达到最高性能的奖励模型(RM)。与之前报告的现有RM的最佳结果相比,这代表了实质性的改进(约10%的绝对值)。我们证明了Helper3-Preference偏好也可以应用于训练生成RM,以及如何使用我们的RM将政策模型与RLHF对齐。数据在https://huggingface.co/datasets/nvidia/HelpSteer3#preference

️文章简介

研究问题:如何构建一个高质量、开放的人类标注偏好数据集,以支持多任务和多语言环境下的大语言模型(LLM)的训练。
主要贡献:论文收集并公开发布了多样化任务和语言的偏好注释数据集,旨在提高模型的对齐能力。

重点思路

数据集构建:从ShareGPT和WildChat-1M获取提示,利用17个商用许可模型生成响应,通过多轮对话填充技术构建上下文,邀请具备专业背景的注释者(如STEM领域学位、编程经验、语言流利能力)进行3-5轮独立标注,评估维度涵盖正确性、连贯性等,并过滤无效样本及异常标注。
奖励模型训练:基于Llama-3.3-70B-Instruct,使用Scaled Bradley-Terry损失训练传统奖励模型(RM),并探索生成式奖励模型(GenRM),通过生成文本评论再评分提升准确性。
策略模型对齐:利用训练好的奖励模型,通过RL算法对齐Llama-3.3-70B-Instruct,在MT Bench、Arena Hard等基准上评估对话生成质量。

分析总结

偏好分布结果显示,普通、STEM和代码子集呈现双峰分布,而多语言子集则表现为单峰分布,表明多语言提示可能更容易。
实验结果表明,使用HelpSteer3-Preference训练的模型在JudgeBench和RM-Bench上表现出显著的准确性提升,超过了基线数据集的表现。
特定于代码的训练仅在代码子集上表现欠佳,表明需要在注释指导中关注代码的可读性和风格。
分析表明,偏好注释中对正确性和响应连贯性的重要性较高,尤其在STEM和代码子集中更为明显。

个人观点

论文开放的偏好数据集不仅涵盖了多样化的任务和语言,还通过严格的质量控制和注释过程。

附录

英伟达:LLM多任务和语言的偏好数据集_第2张图片

你可能感兴趣的:(大模型-模型训练,人工智能,自然语言处理,语言模型,论文笔记)