GRPO：Group Relative Policy Optimization | Qetx Blog

type

Post

status

Published

date

Apr 19, 2026

slug

summary

tags

category

category (1)

icon

password

comment

论文地址：https://arxiv.org/pdf/2402.03300

GRPO的核心思想是通过组内相对奖励来估计基线（baseline），从而避免使用额外的价值函数模型（critic model）。传统的PPO算法需要训练一个价值函数来估计优势函数（advantage function），而GRPO通过从同一问题的多个输出中计算平均奖励来替代这一过程，显著减少了内存和计算资源的消耗。

1.框架图

首先看一下PPO 与GRPO 的比较图。

notion image

从图上可以看出，GRPO 与PPO 的主要区别有：

GRPO 省略了 value function model.

GRPO reward 计算，改成了一个q 生成多个r, 然后reward 打分。

PPO 优势函数计算时，KL 是包含在GAE内部的。 GRPO 直接挪到了外面，同时修改了计算方法。

2.算法原理

2.1PPO算法复习

这个比较熟悉，策略概率比与优势函数的乘积。同时做了clip限制了参数更新范围。

notion image

公式2 是PPO 中优势函数的计算。在reward 打分上，加一个per-token 的KL散度惩罚。

notion image

2.2GRPO优化

下面是GRPO 的改进。 论文认为value function model 占用了额外的显存和计算资源。因此提出以下的改进方法。

去除value function , reward 直接对单个q生成的response进行打分，归一化后，作为替代的优势函数。

同时将KL散度抑制，移到了优势函数计算的外面。 KL 散度的计算也进行了改进，可以见公式4. 为了保证KL散度为正值。

notion image

notion image

下图是基于group reward 计算优势函数的，归一化公式：

notion image

下面是GRPO 的计算伪代码：

notion image

GRPO的计算流程包括：

采样一组输出并计算每个输出的奖励。

对组内奖励进行归一化处理。

使用归一化后的奖励计算优势函数。

通过最大化目标函数更新策略模型。

迭代训练，逐步优化策略模型。

GRPO通过组内相对奖励估计基线，避免了传统PPO中价值函数的使用，显著减少了训练资源消耗，同时提升了模型在数学推理等复杂任务中的表现。

作者:qetx
链接:http://qetx.top/article/347b233d-8731-8015-b226-c825558d012d
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

春秋云镜 Tsclient PPO: Proximal Policy Optimization Algorithms

Loading...

目录

0%

qetx

菜鸡qet

最新发布

GRPO：Group Relative Policy Optimization

PPO: Proximal Policy Optimization Algorithms

PHP伪协议filter奇技淫巧总结

公告

🎉qetx新博客已经上线🎉

-- 感谢您的支持 ---

这里会有什么？

ctf知识

RL学习笔记

有趣的生活日常

目录

0%