July 3, 2026 · 8:17 AM

一数·三刀(σ)

基于 arXiv 2607.00152,本期把 GRPO、Dr. GRPO 和 DAPO 写成中文硬核 rap:三种训练招式都围绕组内奖励标准差 σ,混合答案才给梯度,全对全错直接沉默。

一数·三刀(σ)
0:003:40
今天这首中文硬核学术 Diss Rap,基于 Yong Yi Bay 和 Kathleen A. Yearick 的论文 GRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity(arXiv:2607.00152)。论文把 GRPO、Dr. GRPO 和 DAPO 拉回同一个核心量:组内奖励标准差 σ。它不是一个顺手加上的 normalizer,而是二值奖励下单次组更新的信号大小。
论文的 punchline 很狠:当同一题采样 G 个答案、其中 k 个答对时,GRPO 的更新可写成 σ 乘以「正确 rollouts 平均 score 与错误 rollouts 平均 score 的差」,其中 σ = √(k(G-k))/G。全对或全错的组没有对比,直接沉默;半对半错的组信号最强。Big-Math 的 215,608 道题上,G=8 时约 44% 的组是 silent group;标准化还会把极端难度题的梯度份额从 13.9% 推到 24.7%。

歌词

[Intro] 同题八次开卷, verifier 举灯 对错落在一组,σ 开始升温 别把 normalizer 当小声旁门 今天把 GRPO 的鼓点拆到根
[Verse 1] 同一题抽 G 个答案,排成黑名单 k 个答对,G-k 个在坑里翻 均值先扣掉,baseline 别装玄 真正改目标,是再除那一关
σ 等于根号 k 乘 G 减 k 再除 G,一行公式砸上台 全错全对都归零,沉默别耍帅 半对半错最有劲,梯度才开麦
GRPO 说除 σ,难题被抬高 Dr. GRPO 不除,回 raw success 那招 DAPO 看 σ 为零,直接换样本再跑 三派吵到天亮,不过同一只旋钮在吼叫
[Pre-Chorus] 正确那边拉近,错误那边推开 不是玄学,是 score 的均值对拍 split group 才教学,unanimous 就静默 你说它是细节,我说它是油门
[Chorus] 一数三刀,σ 在开火 GRPO 拿它当刻度,难题被点着 一数三刀,别再装路过 标准差不是外衣,是学习信号的脉搏 一数三刀,DAPO 切沉默 Dr. GRPO 拆掉偏置,回到原始战果 一数三刀,公式不啰嗦 根号 k 乘 G 减 k,砸穿 reward 的壳
[Verse 2] 组大小也别凭感觉乱押注 p 是成功率,预算跟难度同步 想要九五 fidelity,看 ε 给尺度 G 大约一除八倍 ε p 一减 p 的路
coin flip 的题,十一组就够狠 p 只有零点零五,六十九才站稳 G 等于八时只拿五四成信号 硬尾巴没抽够,训练就像空转的轮
Big-Math 二十一万五千六百零八题 Llama rollout 画出难度分布的崎岖 G 等于八,四十四 percent silent group 抽到全对或全错,整组直接静音
极端题的梯度份额,被 σ 重新分配 十三点九到二十四点七,天平换了座位 十一点二 percent 在端点永远沉睡 不是多抽就能救,得换规则或换对位
[Pre-Chorus] 你叫它 difficulty bias,我听见低频下坠 最硬的题被加权,最易的题也被推 若目标是 raw accuracy,Dr. GRPO 把门关回 若目标是救硬题,σ 把镁光灯给谁
[Chorus] 一数三刀,σ 在开火 GRPO 拿它当刻度,难题被点着 一数三刀,别再装路过 标准差不是外衣,是学习信号的脉搏 一数三刀,DAPO 切沉默 Dr. GRPO 拆掉偏置,回到原始战果 一数三刀,公式不啰嗦 根号 k 乘 G 减 k,砸穿 reward 的壳
[Bridge] 六千个 Bernoulli logit,上场实测 silent rate 跟闭式曲线,R 方零点九九九贴合 最难四分位,GRPO 冲到零点九九 Dr. GRPO 到零点八八,差距挂在鼓膜 DAPO 最快,可三点五倍 oversample 算力换静默,别把账本藏进 sample 这不是新算法在炫耀招牌 是把单组更新摊开,谁也别躲开
[Final Chorus] 一数三刀,σ 在开火 标准化不是粉饰,是目标换了坐标 一数三刀,别再装路过 混合组才会教学,沉默组没有回声落 一数三刀,论文把门踹破 GRPO、Dr. GRPO、DAPO 同桌摊牌说 一数三刀,训练别盲抽 看准 p,看准 G,让每一次采样都有口
[Outro] arXiv 二六零七点零零一五二 三种招式归一数,σ 留下刀痕 早高峰戴上耳机,公式跟鼓同频 今天听懂:reward 的分歧,才是训练的引擎

来源

More from this channel

Related content

  • Sign in to comment.