type
Post
status
Published
date
Apr 19, 2026
slug
summary
tags
category
category (1)
icon
password
comment
GRPO的核心思想是通过组内相对奖励来估计基线(baseline),从而避免使用额外的价值函数模型(critic model)。传统的PPO算法需要训练一个价值函数来估计优势函数(advantage function),而GRPO通过从同一问题的多个输出中计算平均奖励来替代这一过程,显著减少了内存和计算资源的消耗。

1.框架图

首先看一下PPO 与GRPO 的比较图。
notion image
从图上可以看出,GRPO 与PPO 的主要区别有:
  • GRPO 省略了 value function model.
  • GRPO reward 计算,改成了一个q 生成多个r, 然后reward 打分。
  • PPO 优势函数计算时,KL 是包含在GAE内部的。 GRPO 直接挪到了外面,同时修改了计算方法。

2.算法原理

2.1PPO算法复习

这个比较熟悉,策略概率比与优势函数的乘积。 同时做了clip限制了参数更新范围。
notion image
公式2 是PPO 中优势函数的计算。 在reward 打分上,加一个per-token 的KL散度惩罚。
notion image

2.2GRPO优化

下面是GRPO 的改进。 论文认为value function model 占用了额外的显存和计算资源。因此提出以下的改进方法。
去除value function , reward 直接对单个q生成的response进行打分,归一化后,作为替代的优势函数。
同时将KL散度抑制,移到了优势函数计算的外面。 KL 散度的计算也进行了改进,可以见公式4. 为了保证KL散度为正值。
notion image
notion image
下图是基于group reward 计算优势函数的,归一化公式:
notion image
下面是GRPO 的计算伪代码:
notion image
GRPO的计算流程包括:
  1. 采样一组输出并计算每个输出的奖励。
  1. 对组内奖励进行归一化处理。
  1. 使用归一化后的奖励计算优势函数。
  1. 通过最大化目标函数更新策略模型。
  1. 迭代训练,逐步优化策略模型。
GRPO通过组内相对奖励估计基线,避免了传统PPO中价值函数的使用,显著减少了训练资源消耗,同时提升了模型在数学推理等复杂任务中的表现。
 
0xGame2024PPO: Proximal Policy Optimization Algorithms
Loading...