基础知识:PPO & GRPO

用最直白的比喻来解释PPO和GRPO的区别,就像训练小狗的两种不同方法:


1. PPO(近端策略优化)

比喻‌:
就像用‌零食+绳子‌训练小狗:

  • 绳子‌(Clipped Objective):防止小狗跑太远(限制策略更新幅度)
  • 零食奖励‌(Critic模型):每次动作后,主人评估"坐得好不好"再给零食
  • 特点‌:边做边教,每步都微调(单样本更新)

人话版‌:
PPO像严格的教练,要求你每做一步就立刻打分(Critic),但限制你改进的幅度不能太大(防止翻车)。


2. GRPO(广义强化策略优化

你可能感兴趣的:(LLM,&,AIGC,&,VLP,人工智能)