新智元 前天 05:05
大模型对齐新突破:评分准则解决奖励过度优化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Scale AI联合研究团队提出了一种创新的基于评分准则(rubric)的奖励建模方法,有效解决了大模型强化学习中的奖励过度优化问题。研究表明,关键在于准确区分“优秀”和“卓越”的回答,而非在所有回复上都追求完美。该方法通过将评分分解为可验证的具体标准,并聚焦于高奖励区域的准确性,显著提升了大模型对齐效果。实验证明,此方法在通用和医疗领域均有出色表现,为大模型对齐提供了理论指导和实践方案。

🎯 **奖励过度优化的根源在于评分模型在高分区的不准确性**:研究指出,大模型在强化学习中之所以容易“用力过猛”,是因为奖励模型在高分区域的误差会急剧影响模型性能,而低分区域的误差影响甚微。这意味着,我们无需追求在所有回复上都做到完美,只需精确地区分“优秀”与“卓越”的回答即可,即使只能正确排序前10%的优质回答,模型性能也能接近最优。

✨ **基于评分准则(Rubric)的创新方法**:为解决高质量样本获取的难题,研究团队提出了基于评分准则(rubric)的方法。评分准则是一组衡量回答质量的具体标准,每个标准都有明确的权重,通过将评分分解为可验证的二元判断(满足/不满足),并进行加权平均,可以更有效地捕捉回答的真实质量特征,并且具有分布不变性,避免了引入分布偏移。

🚀 **两大原则构建有效的Rubric以捕捉高分差异**:为了让评分准则真正区分出“优秀”与“卓越”,研究提出了两大原则:一是通过对比两个都很好的回答,识别并编码它们的细微差异为新的评分标准;二是需要在多样化的优质回答中寻找差异,通过扩大采样池来覆盖不同的优秀回答模式,从而更全面地捕捉高分区的细微差别。

🔬 **实验验证全面提升模型性能并缓解优化问题**:在通用和医疗领域的实验表明,使用优质样本改进的评分准则显著提升了模型性能,例如在通用领域胜率从31.3%提升至39.7%,在医疗领域HealthBench得分从0.3004提升至0.3513。更重要的是,该方法有效缓解了奖励过度优化问题,将模型性能崩溃点大幅推迟,延长了近3倍,且在高奖励区域的准确率得到显著提升。

💡 **从表面判断到深层验证的质的飞跃**:通过分析不同质量样本带来的Rubric改进类型,研究发现,优秀样本驱动的改进侧重于避免明显错误和纠正预期,而卓越样本驱动的改进则能将复杂标准分解为子标准,增强验证和证据,明确范围边界,纳入风险分析等,实现了从表面判断到深层验证的质的飞跃,使模型更深入地理解并遵循人类意图。


  新智元报道  

编辑:KingHZ
【新智元导读】大模型强化学习总是「用力过猛」?Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则(rubric)的奖励建模新方法,从理论和实验两个维度证明:要想让大模型对齐效果好,关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源,还提供了实用的解决方案。

让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。

奖励过度优化是大模型对齐的「阿喀琉斯之踵」。

简单来说,就是模型学会了「钻空子」——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正理解知识。

Scale AI的最新研究直击这一痛点,从理论层面揭示了问题的根源,并提出了创新的解决方案。

论文链接:https://arxiv.org/abs/2509.21500 

代码开源:https://github.com/Jun-Kai-Zhang/rubrics

数据开源:https://huggingface.co/datasets/JunkaiZ/Rubrics


理论突破高分区才是关键战场来自Scale AI、UCLA和芝加哥大学的研究团队,首次从理论上给出了明确答案:

奖励过度优化的根源,在于奖励模型在高分区的不准确性。

高奖励区域的准确性决定一切:当代理奖励在高分区域出现偏差时,模型性能会随着训练进程急剧崩溃;而低分区域的误差影响微乎其微。

只需要准确识别Top 2响应:即使只能正确排序前10%的优质回答,模型性能就能接近最优,效果几乎与完美奖励模型相当。

这意味着:我们不需要在所有回复上都准确,只需要准确区分「优秀」和「卓越」!

方法创新用评分准则捕捉「卓越」理论清晰了,但新问题来了:如何获得高质量样本来训练奖励模型?这里存在一个悖论:

从基础模型采样?太低效了——高分样本本来就稀少。

用更强模型生成?又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。

研究团队提出了基于评分准则(rubric)的解决方案。评分准则是一组衡量回答好坏的明确准则,每个准则都有相应权重。比如对于医疗诊断问题,可能包括:

高权重准则:「正确识别疾病」「标明紧急程度」


低权重准则:「提及治疗方案」

Rubric的核心优势在于:

将评分分解为多个可验证的具体标准

每个标准都是二元判断(满足/不满足)

最终得分是满足标准的加权平均

更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。

两大原则:如何构建有效的Rubric为了让Rubric真正捕捉高分区的差异,研究团队提出两大关键原则:

原则1:区分「优秀」与「卓越」通过对比两个都很好的回答,识别它们的细微差异,将这些差异编码为新的评分准则。

原则2:在多样化的优质回答中寻找差异扩大候选池,从16个顶尖模型中采样,确保覆盖不同的优秀回答模式。


实验验证全面碾压基线方法研究在通用和医疗两个领域进行了大规模实验:

性能提升明显使用优质样本改进的评分准则,胜率从31.3%提升至39.7%

医疗领域的HealthBench得分从0.3004提升至0.3513

有效缓解奖励过度优化初始评分准则训练的模型在60步后性能急剧下降

改进后的评分准则将崩溃点推迟到160步,延长了近3倍

高奖励区域准确率大幅提升评分准则改进后,在高奖励区域的准确率提升显著,而低奖励区域的准确率基本不变,完美验证了理论预测。

质的飞跃:优秀样本带来更深层的改进研究团队还分析了不同质量样本带来的Rubric改进类型:

优秀样本驱动的改进

添加惩罚项,避免明显错误

放宽过于严格的标准

纠正错误或对齐预期标准

卓越样本驱动的改进

将复杂标准分解为子标准

增强验证和证据标准

明确范围、边界和约束

纳入风险分析和安全约束

以医疗案例为例:

初始Rubric只要求「提到正确诊断」和「说明紧急性」——两个优秀回复都满足。

精炼后的Rubric新增标准:「明确指出需要紧急影像学检查(如增强CT或MRI/MRV)来确认诊断」,成功区分出了更好的那个。

这就是质的飞跃:从表面判断到深层验证标准。

产业意义与展望这项研究为大模型对齐提供了全新视角:

理论指导实践:明确了奖励建模的优化方向——聚焦高奖励区域

方法可操作性强:基于评分准则的方法易于实施和解释

领域适应性好:在医疗等专业领域表现尤其出色

当然,研究也指出了当前的局限:

简单的加权平均可能不是最优的分数聚合方式

对于大模型从业者来说,这项工作提供了一个清晰的方向:

不要试图在所有地方都完美,专注于准确区分顶尖回复,这才是对齐的关键。

参考资料:
https://arxiv.org/abs/2509.21500


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 强化学习 奖励建模 模型对齐 评分准则 LLM Reinforcement Learning Reward Modeling Model Alignment Rubrics
相关文章