热点
"Geometric-Mean Policy Optimization" 相关文章
给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
PaperWeekly 2025-09-11T19:36:24.000000Z
几何平均策略优化GMPO:让大模型推理训练更稳健
微软研究院AI头条 2025-09-11T17:39:39.000000Z