Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models

2025.acl-long.549.pdfhttps://aclanthology.org/2025.acl-long.549.pdf

1. 概述

        大型语言模型(LLMs)(Anthropic, 2023; OpenAI, 2024)已经在广泛的实际应用中展示了显著的能力(Bubeck et al., 2023),包括内容创作(Yuan et al., 2022)、编程辅助(Chen et al., 2021; Gao et al., 2023)和数学推理(Wei et al., 2022)。随着LLMs在日常AI系统中的日益整合,确保它们与人类偏好(如有帮助、无害和诚实)的一致性已成为一个关键挑战。为了解决这一挑战,已经开发了各种对齐技术(Ji et al., 202

你可能感兴趣的:(大模型与智能体,对抗生成网络与动作识别,强化学习,语言模型,人工智能,自然语言处理,深度学习,机器学习)