IT之家 05月30日
苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司与杜克大学合作,推出了一种名为交错推理的强化学习方法,旨在提升大型语言模型在处理复杂问题时的推理能力。该方法通过让模型在推理过程中交替进行内部思考和输出中间答案,显著提高了响应速度和准确率。与传统的“先思考后回答”模式不同,交错推理更贴近人类的思考方式,使得模型能够更高效地解决问题,并在多个基准测试中展现出强大的泛化能力。

🍎交错推理技术是一种新的强化学习方法,由苹果公司与杜克大学共同研发,旨在解决大型语言模型在处理复杂问题时响应时间过长和早期推理错误导致偏差的问题。

⏱️交错推理的核心在于让模型在推理过程中交替进行内部思考(<think>)和输出中间答案(<answer>),这种方式模仿了人类在对话中逐步分享想法的过程,从而提高效率。

🎯研究团队采用了基于规则的奖励机制,包括格式、最终准确率和条件性中间准确率,以确保模型在推理过程中注重整体正确性,同时设计了多种奖励策略,条件性和时间折扣奖励效果最佳。

🚀实验结果表明,交错推理在 Qwen2.5 模型上表现出色,响应速度提升超过 80%,准确率提高高达 19.3%,并且在问答、逻辑数据集以及更具挑战性的基准测试中均展现出强大的泛化能力。

IT之家 5 月 30 日消息,科技媒体 marktechpost 昨日(5 月 29 日)发布博文,报道称苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。

主流大语言模型在处理多步复杂问题时,常采用“先思考后回答”的长链式推理方式。然而,这种方法存在两大痛点:一是响应时间过长,难以满足实时交互需求;二是早期推理步骤出错可能导致最终答案偏差。

研究人员指出,与人类在对话中随时分享部分想法不同,模型往往等到推理全部完成才输出结果,导致效率不高。

苹果公司携手杜克大学,研发了交错推理技术,让模型在推理过程中交替进行内部思考和输出中间答案(sub-answer),从而提升速度与实用性。

交错推理基于强化学习(RL)框架,采用特殊的训练模板,包含 <think> 和 < answer > 标签,确保模型在达到关键推理节点时输出中间结果。

研究团队设计了基于规则的奖励机制,包括格式、最终准确率和条件性中间准确率,确保模型注重整体正确性。

测试中,交错推理在 Qwen2.5 模型(1.5B 和 7B 参数)上表现优异,响应速度提升超 80%,准确率提高高达 19.3%。

此外,该方法仅在问答(QA)和逻辑数据集上训练,却能在 MATH、GPQA、MMLU 等更具挑战性的基准测试中展现强大泛化能力。

研究还尝试了多种奖励策略,如全或无、部分积分和时间折扣奖励,其中条件性和时间折扣奖励效果最佳,显著优于传统方法。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

交错推理 强化学习 大语言模型 苹果 杜克大学
相关文章