Young 🔜 WM🌍
Young 🔜 WM🌍|2025年10月09日 10:01
GRPO 就像 PPO,但它不是追求绝对奖励,而是从样本组中的相对表现中学习。 对于每个提示,模型会生成多个输出 → 对它们进行评分 → 然后根据谁相对于其他人表现更好进行优化,而不是基于原始奖励。 @akshay_pachaar 给我们带来了一个更直观的展示
+6
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读