上海交大等机构的研究提出LIMI方法,颠覆了大模型训练“量比一切”的认知。该方法仅用78条人工挑选和合成的“高密度智能体轨迹”,就显著提升了基础大模型的智能体能力,在AgencyBench上超越了使用上万条样本训练的模型。LIMI方法强调“策略密度”而非数据规模,通过构建包含完整任务执行过程的训练单元,并聚焦于协作式软件开发和科研工作流等高信号密度场景,实现了智能体从“答案模仿”到“经验跟随”的范式转变,有效提升了模型在复杂任务中的实际执行能力和首轮任务完成率。
💡 **高密度智能体轨迹的重要性**:研究团队提出的LIMI方法核心在于“策略密度”,即每条数据所包含的有效策略信息量,而非数据总量。通过精心设计的78条人工挑选和合成的“高密度智能体轨迹”,LIMI方法能够显著提升大模型在智能体任务上的表现,甚至超越使用上万条样本训练的模型,颠覆了数据规模决定能力的传统认知。
🧠 **从“答案模仿”到“经验跟随”的范式转变**:LIMI方法重新定义了训练单元,不再是简单的“指令-答案”对,而是将一个完整任务的规划、执行、反馈、修复等全过程纳入其中。模型学习的是如何在复杂环境中逐步推进任务的能力,而非仅仅模仿一个最终结果。这种“跟随经验”的学习方式,使其在面对复杂、多步骤任务时表现出更强的适应性和主动性。
🛠️ **聚焦高信号密度场景构建训练数据**:研究团队聚焦于协作式软件开发(如代码编写、调试)和科研工作流等天然具备高反馈信号和策略密度的场景来构建训练数据。这些场景下的任务轨迹,平均长度高达42k tokens,最长达152k tokens,详细记录了从起步到完成的完整决策链。在SII CLI环境下的采集,确保了数据的可复现性和真实性,避免了“纸上谈兵”。
🚀 **显著的性能提升与泛化能力**:实验结果显示,LIMI方法仅用78条样本,在AgencyBench上的平均得分显著高于使用1万条样本训练的模型,并且在第一轮任务完成率(FTFC)上表现更优,意味着模型能够“开局就踩准关键点”。此外,LIMI方法在CLI环境外的其他基准测试中也展现出更强的泛化能力,证明其学到的是可迁移的策略模式而非环境特化技巧。
原创 让你更懂AI的 2025-09-25 22:21 北京
只用78条数据,模型一脚碾压大规模对手!
在大模型圈,有一个几乎铁律般的直觉: 更多数据,就意味着更强的能力。无论是预训练还是指令微调,大家的共识都是“量就是一切”。但这次,来自上海交大等机构的一篇论文却把这条规律颠覆了。
研究团队提出了一个名为 LIMI (Less Is More for Intelligent Agency) 的方法:他们只用 78 条人工挑选和合成的“高密度智能体轨迹”,就让一个基础大模型的智能体能力在 AgencyBench 上一举飙升,超过了靠上万条样本训练出来的对照模型。
最关键的是,这不是靠什么隐秘的“黑魔法”,而是一个朴素到近乎直觉的发现: 智能体要学会“干活”,靠的是每条数据里有多少“策略密度”,而不是简单的规模堆砌。论文标题: LIMI: Less is More for Agency 论文地址: https://arxiv.org/pdf/2509.17567 GitHub地址: https://github.com/GAIR-NLP/LIMI 为什么“多”不一定“强”? 在过去两年,智能体(Agent)的发展几乎成了大模型最火的赛道。从最初的 ReAct、Toolformer 到后来的多代理协作、Agent Foundation Models,大家都在追求一个目标: 让 AI 不只是回答问题,而是能闭环执行任务 。 但现实却是:大多数智能体在复杂场景里依旧不堪一击。我们习惯了用“语言建模的逻辑”来训练智能体: 靠规模取胜 ——合成成千上万条任务数据,记录成千上万条执行轨迹,然后直接喂给模型。 问题在于,这类数据大多数是 低密度的 。它们往往覆盖的是一些模式化的、机械重复的任务:比如改写文本、生成摘要、修复简单代码。模型确实会变“听话”,但当面对复杂的、多步骤的任务时,它们显得手足无措。因为这些低密度样本里,缺少真正能迁移的“策略信号”。 换句话说:数据量再大,如果每条数据都“信息稀薄”,那堆出来的还是个只会模板化执行的助手,而不是能主动完成工作的“同事”。 于是,这篇论文抛出了一个关键问题: 与其问“我们需要多少数据”,不如问“每条数据里能装下多少策略”。
从“量”到“密度”的范式转变 第一步:重新定义训练单元。 传统的 SFT(监督微调)样本,就是一个「指令 → 答案」。但 LIMI 的思路是:把一个完整任务的全过程都纳入训练单元。 形式化地说,每个任务由一个查询 触发,配套的执行轨迹为: 其中每个动作 可能是: 思考(model thought) , 工具调用(tool invocation) , 环境观察(observation) 。 于是监督微调目标函数变成了: 其中 表示轨迹中到第 步的上下文与环境状态。换句话说,模型学到的不是“答案”,而是 在复杂环境中一步步推进的能力。
▲ 图1. 以“五子棋开发”为例,一条任务轨迹被拆解为规划—执行—反馈的长链,模型学习的是如何逐步推进而不是直接给答案。 第二步:构建高密度任务池。 研究团队聚焦两个天然“信号密度高”的场景: 协作式软件开发(Vibe Coding): 代码能写、能跑、能调试,反馈即时且明确; 科研工作流(Research Workflow): 任务长链、工具多样、结果可验证,天然适合学习策略。 他们人工采集了 60 条真实任务,并从 GitHub PR 中精选出 18 条合成任务(排除掉文档更新等无效改动)。最终形成了 78 条黄金样本。
这些轨迹的平均长度高达 42k tokens,最长甚至 152k tokens。每一条都像一本“实验日记”,承载了从起步到完成的完整决策链。
▲ 图2. 数据构建流水线,左侧是真实任务采集,右侧是GitHub PR合成,最后都在CLI环境下生成可复现轨迹。
▲ 图3. 轨迹长度分布与任务覆盖,展示了样本内部的“策略密度”。 第三步:固化环境,形成闭环。 所有数据都在 SII CLI 环境下采集。这个环境允许:
真实调用工具 观察执行反馈 记录失败与修复 最终走到“可复现的完成” 这就避免了“纸上谈兵”的伪轨迹,让模型直接暴露在真实的决策链中。 78条样本,碾压1万条? 真正让人震撼的,是实验环节。研究团队在 AgencyBench 上做了系统对比,本意可能只是想验证一下“小规模精炼数据”能不能跑得起来,结果却直接跑出了“惊天反转”。
在基线 GLM-4.5 上,不做任何智能体训练时平均分是 45.1%;如果再拿 1 万条合成的代码代理数据来做监督微调,分数也只是略微提升到了 47.8%。然而,当作者只用那 78 条精心设计的黄金样本时,分数直接飙升到 73.5%。
▲ 表1. 不同模型在AgencyBench上的对比,LIMI(78条样本)显著超越1万条数据的微调模型。
这个结果意味着什么?意味着当数据质量足够高、每条都能传递“策略密度”时,规模反而成了次要因素。128 倍更少的数据,却换来了超过 25 个百分点的性能提升。 而且,作者并没有满足于“平均分高”这一点。他们进一步考察了一个更关键的指标: 第一轮任务完成率(FTFC) 。 在传统智能体中,常见的情况是模型会反复试错——先胡乱调用工具,再根据报错信息修修补补,最后可能凑出一个能跑的答案。但这种“试错式成功”,在真实生产环境里几乎毫无价值。真正有价值的,是模型能不能在第一步就走在正确轨道上。 结果显示:LIMI 在 FTFC 上达到了 71.7% ,而基线模型只有 37.8% 。换句话说,LIMI 学到的不是“多试几次蒙对”,而是“开局就踩准关键点”。 ▲ 图4. Less-is-More效应曲线,78条高密度样本在性能曲线上远超大规模低密度数据。 这张曲线非常直观:在横轴样本量不断增加的过程中,大规模低密度数据的收益曲线几乎是平的,甚至在加入更多样本时反而出现了性能下滑;而 LIMI 的曲线像是直接跳了一个台阶,表明它学到的信号完全不同。 更妙的是,这种优势并不局限于 AgencyBench。作者还在 TAU2-bench、EvalPlus、DS-1000、SciCode 等外部基准上做了测试。即使离开 CLI 环境,LIMI 依旧显著优于基线。 尤其是在代码和科研任务里,LIMI 展现出了更强的泛化能力,这说明它学到的并不是环境特化的“技巧”,而是真正可迁移的 策略模式 。 实验部分带给我们的感受很清晰:这不是“以小博大”的运气,而是一种 新的训练逻辑 在发挥作用。于是问题变成了:为什么短短 78 条轨迹,能产生超过 1 万条数据都达不到的效果? 为什么78条能打穿1万条? 如果要给这个结果找一个核心逻辑,那就是:LIMI 重新定义了“什么叫有用的数据”。 在传统训练里,我们习惯把一条样本看成“问题—答案”的对映关系,模型最终学到的,只是如何在语料的空间里找到一个看似合理的补全。但 LIMI 里的每一条样本,是从问题到完成的全过程,包含了思考、工具调用、反馈、修复、再尝试。也就是说,模型不再是模仿一个“结果”,而是在跟随一段“经验”。 更关键的是,作者选取的场景并不是随便的,而是 天然带强反馈的环境 :写代码和科研工作流。这些任务会不断给出明确的信号——代码能不能跑通,实验能不能复现——于是每一次失败与修复,都会变成一条可迁移的经验路径。正是在这些路径中,模型学会了如何纠错、如何调整、如何走到终点。 再加上 CLI 环境的闭环设计,这些轨迹就不再是纸上谈兵的脚本,而是一步步真实的“操作日志”。这样的数据密度,远非那些成千上万条机械合成的样本能比。于是我们看到,在 AgencyBench 上,LIMI 只凭 78 条轨迹就拉开了超过 25 个百分点的差距。 这个现象并不是“偶然爆冷”,而是一个极其自然的结果:当你喂给模型的是经验而不是答案,它自然会变得更像一个“能干活的人”。 从“量”到“密度”的新范式 这篇论文真正有意思的地方,不是证明了“78 条胜过 1 万条”,而是让我们重新思考了一个长期被忽略的问题: 智能体的训练,本质上是在教它如何工作,而不是让它背更多的答案。 当我们一味追求数据规模时,得到的是一个更“顺从”的助手,它能模仿更多的表面模式;而当我们转向数据密度,得到的却是一个更“聪明”的同事,它能把有限的经验提炼成可迁移的策略。 图 1–3 展示了什么叫“高密度样本”的构建逻辑,表 1 和图 4 给出了直观的数值与曲线,而公式里的 与 FTFC 指标,则把这种直觉抽象成了可优化的训练目标。它们共同指向一个事实:智能体的瓶颈不是“缺少数据”,而是“缺少真正有用的数据”。 所以,当我们再谈“Less is More”时,它已不再是一句漂亮的口号,而是一个经过实验和理论双重验证的工程真理。未来谁能最先在自己领域里凑齐那几十条“黄金样本”,谁就可能最早把“会干活的 AI”送上生产线。 更多阅读