热点
关于我们
xx
xx
"
Geometric-Mean Policy Optimization
" 相关文章
给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
PaperWeekly
2025-09-11T19:36:24.000000Z
几何平均策略优化GMPO:让大模型推理训练更稳健
微软研究院AI头条
2025-09-11T17:39:39.000000Z