Young 🔜 WM🌍
Young 🔜 WM🌍|2025年10月09日 10:01
GRPO 就像 PPO,但它不是追求绝对奖励,而是从样本组中的相对表现中学习。 对于每个提示,模型会生成多个输出 → 对它们进行评分 → 然后根据谁相对于其他人表现更好进行优化,而不是基于原始奖励。 @akshay_pachaar 给我们带来了一个更直观的展示
+6
曾提及
分享至:

脈絡

熱門快訊

APP下載

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀