热点
"几何平均策略优化" 相关文章
几何平均策略优化GMPO:让大模型推理训练更稳健
微软研究院AI头条 2025-09-11T17:39:39.000000Z