Geometric-Mean Policy Optimization_Fishai

热点

"Geometric-Mean Policy Optimization" 相关文章

给RL装上“防抖器”！GRPO稳化版来了：更高熵、更低KL、更稳更新

PaperWeekly 2025-09-11T19:36:24.000000Z

几何平均策略优化GMPO：让大模型推理训练更稳健

微软研究院AI头条 2025-09-11T17:39:39.000000Z

Copyright © 2019 FISHAI.All Rights Reserved