VSRM：美团创新奖励机制提升大模型推理效率

美团技术团队 10月10日 15:18

美团研发团队提出VSRM机制，有效解决大模型推理中的冗余回复和过度思考问题，显著提升推理效率，兼容主流强化学习算法。

美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制（VSRM），针对大模型推理中的冗余回复与过度思考问题，精准奖励有效推理步骤，显著缩减输出长度并提升推理效率。VSRM 通过步骤级正确率增益评估，有效抑制无效步骤，兼容主流强化学习算法，助力高效、可靠的复杂推理任务。

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑