苹果研究：用清单反馈提升大语言模型能力

IT之家 08月26日

苹果研究：用清单反馈提升大语言模型能力

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

苹果研究人员在其最新论文中提出了一种名为“基于清单反馈的强化学习”（RLCF）的新方法，旨在提升大语言模型（LLMs）执行复杂指令的能力。与传统的“人类反馈强化学习”（RLHF）依赖点赞/点踩评分不同，RLCF为每条用户指令生成具体的检查清单，并逐项评分。在“Qwen2.5-72B-Instruct”模型上的测试结果显示，RLCF在多个基准测试中均带来了显著提升，例如在FollowBench上提升4个百分点，InFoBench提高6点。该方法通过生成包含二元判断项的“WildChecklists”数据集，利用大模型对候选回答进行评分，并将加权后的分数作为训练奖励信号。尽管RLCF在提升复杂指令执行方面效果显著，但研究者也指出其局限性，包括对更强模型作为评判者的依赖以及其不适用于安全对齐问题。

🍎 苹果研究团队提出“基于清单反馈的强化学习”（RLCF）新方法，旨在革新大语言模型（LLMs）处理复杂指令的方式。与依赖人类点赞/点踩的传统“人类反馈强化学习”（RLHF）不同，RLCF通过为每条指令生成详细的检查清单，并对模型生成的每个回答进行逐项评分，从而提供更精细化的反馈信号，以指导模型优化其性能。

📊 RLCF方法在实际测试中表现出色，在强指令跟随模型Qwen2.5-7B-Instruct上进行评估时，该方法是在所有测试基准中唯一实现全面提升的方案。具体而言，在FollowBench硬性满意率上提升了4个百分点，InFoBench提高了6点，Arena-Hard胜率增加了3点，某些特定任务的提升幅度最高可达8.2%，这充分证明了其在处理多步骤、复杂指令方面的有效性。

📝 该方法的实现依赖于一个名为“WildChecklists”的数据集，该数据集由一个更大规模的Qwen2.5-72B-Instruct模型生成，其中包含了13万条指令及其对应的二元判断项检查清单，例如“是否翻译成西班牙语？”。这些清单项随后被用于指导大模型对候选回答进行逐项评分，并将这些评分加权后作为训练小模型的奖励信号。

⚠️ 苹果研究者也坦诚该RLCF方法的局限性。首先，其有效性在一定程度上依赖于更强大的模型作为“评判者”来生成和评分清单，这在计算资源受限的场景下可能难以实现。其次，RLCF主要聚焦于提升指令执行的准确性，而非解决模型的安全对齐问题，因此不能替代专门的安全评估与调优工作。其他任务类型的适用性也需要进一步的验证。

IT之家 8 月 26 日消息，科技媒体 9to5Mac 昨日（8 月 25 日）发布博文，报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”（RLCF）方法，用任务清单替代传统人类点赞 / 点踩评分，显著提升大语言模型（LLMs）执行复杂指令能力。

IT之家注：RLCF 的全称为 Reinforcement Learning from Checklist Feedback，不同于传统的“人类反馈强化学习”（RLHF）依赖人工点赞 / 点踩，RLCF 为每条用户指令生成具体的检查清单，并按 0-100 分逐项评分，用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法，涵盖五个常用评测基准。结果显示，RLCF 是唯一在全部测试中均取得提升的方案：

FollowBench 硬性满意率提升 4 个百分点

InFoBench 提高 6 点

Arena-Hard 胜率增加 3 点

某些任务最高提升达 8.2%。

这表明清单反馈在复杂、多步骤需求的执行中效果显著。

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型，结合既有研究方法，为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项，例如“是否翻译成西班牙语？”。随后，大模型对候选回答逐项打分，综合加权后作为小模型的训练奖励信号。

苹果研究者也坦言该方法存在局限。首先，它依赖更强模型作为评判者，这在资源受限场景下未必可行。其次，RLCF 专注于提升复杂指令执行能力，并非设计用于安全对齐，因此不能替代安全性评估与调优。对于其他任务类型，该方法的适用性仍需进一步验证。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签