78条高质量数据碾压大规模模型

原创让你更懂AI的 2025-09-25 22:21 北京

只用78条数据，模型一脚碾压大规模对手！

在大模型圈，有一个几乎铁律般的直觉：更多数据，就意味着更强的能力。无论是预训练还是指令微调，大家的共识都是“量就是一切”。但这次，来自上海交大等机构的一篇论文却把这条规律颠覆了。

研究团队提出了一个名为 LIMI (Less Is More for Intelligent Agency) 的方法：他们只用 78 条人工挑选和合成的“高密度智能体轨迹”，就让一个基础大模型的智能体能力在 AgencyBench 上一举飙升，超过了靠上万条样本训练出来的对照模型。

最关键的是，这不是靠什么隐秘的“黑魔法”，而是一个朴素到近乎直觉的发现：智能体要学会“干活”，靠的是每条数据里有多少“策略密度”，而不是简单的规模堆砌。

论文标题：

LIMI: Less is More for Agency

论文地址：

https://arxiv.org/pdf/2509.17567

GitHub地址：

https://github.com/GAIR-NLP/LIMI

为什么“多”不一定“强”？

在过去两年，智能体（Agent）的发展几乎成了大模型最火的赛道。从最初的 ReAct、Toolformer 到后来的多代理协作、Agent Foundation Models，大家都在追求一个目标：让 AI 不只是回答问题，而是能闭环执行任务。

但现实却是：大多数智能体在复杂场景里依旧不堪一击。我们习惯了用“语言建模的逻辑”来训练智能体：靠规模取胜——合成成千上万条任务数据，记录成千上万条执行轨迹，然后直接喂给模型。

问题在于，这类数据大多数是低密度的。它们往往覆盖的是一些模式化的、机械重复的任务：比如改写文本、生成摘要、修复简单代码。模型确实会变“听话”，但当面对复杂的、多步骤的任务时，它们显得手足无措。因为这些低密度样本里，缺少真正能迁移的“策略信号”。

换句话说：数据量再大，如果每条数据都“信息稀薄”，那堆出来的还是个只会模板化执行的助手，而不是能主动完成工作的“同事”。

于是，这篇论文抛出了一个关键问题：与其问“我们需要多少数据”，不如问“每条数据里能装下多少策略”。

从“量”到“密度”的范式转变

第一步：重新定义训练单元。

传统的 SFT（监督微调）样本，就是一个「指令 → 答案」。但 LIMI 的思路是：把一个完整任务的全过程都纳入训练单元。

形式化地说，每个任务由一个查询触发，配套的执行轨迹为：

其中每个动作可能是：

思考（model thought）

，

工具调用（tool invocation）

，

环境观察（observation）

。

于是监督微调目标函数变成了：

其中表示轨迹中到第步的上下文与环境状态。换句话说，模型学到的不是“答案”，而是在复杂环境中一步步推进的能力。

▲ 图1. 以“五子棋开发”为例，一条任务轨迹被拆解为规划—执行—反馈的长链，模型学习的是如何逐步推进而不是直接给答案。

第二步：构建高密度任务池。

研究团队聚焦两个天然“信号密度高”的场景：

协作式软件开发（Vibe Coding）：代码能写、能跑、能调试，反馈即时且明确；

科研工作流（Research Workflow）：任务长链、工具多样、结果可验证，天然适合学习策略。

他们人工采集了 60 条真实任务，并从 GitHub PR 中精选出 18 条合成任务（排除掉文档更新等无效改动）。最终形成了 78 条黄金样本。

这些轨迹的平均长度高达 42k tokens，最长甚至 152k tokens。每一条都像一本“实验日记”，承载了从起步到完成的完整决策链。

▲ 图2. 数据构建流水线，左侧是真实任务采集，右侧是GitHub PR合成，最后都在CLI环境下生成可复现轨迹。

▲ 图3. 轨迹长度分布与任务覆盖，展示了样本内部的“策略密度”。

第三步：固化环境，形成闭环。

所有数据都在 SII CLI 环境下采集。这个环境允许：

真实调用工具

观察执行反馈

记录失败与修复

最终走到“可复现的完成”

这就避免了“纸上谈兵”的伪轨迹，让模型直接暴露在真实的决策链中。

78条样本，碾压1万条？

真正让人震撼的，是实验环节。研究团队在 AgencyBench 上做了系统对比，本意可能只是想验证一下“小规模精炼数据”能不能跑得起来，结果却直接跑出了“惊天反转”。

在基线 GLM-4.5 上，不做任何智能体训练时平均分是 45.1%；如果再拿 1 万条合成的代码代理数据来做监督微调，分数也只是略微提升到了 47.8%。然而，当作者只用那 78 条精心设计的黄金样本时，分数直接飙升到 73.5%。

▲ 表1. 不同模型在AgencyBench上的对比，LIMI（78条样本）显著超越1万条数据的微调模型。

这个结果意味着什么？意味着当数据质量足够高、每条都能传递“策略密度”时，规模反而成了次要因素。128 倍更少的数据，却换来了超过 25 个百分点的性能提升。

而且，作者并没有满足于“平均分高”这一点。他们进一步考察了一个更关键的指标：第一轮任务完成率（FTFC）。

在传统智能体中，常见的情况是模型会反复试错——先胡乱调用工具，再根据报错信息修修补补，最后可能凑出一个能跑的答案。但这种“试错式成功”，在真实生产环境里几乎毫无价值。真正有价值的，是模型能不能在第一步就走在正确轨道上。

结果显示：LIMI 在 FTFC 上达到了 71.7%，而基线模型只有 37.8%。换句话说，LIMI 学到的不是“多试几次蒙对”，而是“开局就踩准关键点”。

▲ 图4. Less-is-More效应曲线，78条高密度样本在性能曲线上远超大规模低密度数据。

这张曲线非常直观：在横轴样本量不断增加的过程中，大规模低密度数据的收益曲线几乎是平的，甚至在加入更多样本时反而出现了性能下滑；而 LIMI 的曲线像是直接跳了一个台阶，表明它学到的信号完全不同。

更妙的是，这种优势并不局限于 AgencyBench。作者还在 TAU2-bench、EvalPlus、DS-1000、SciCode 等外部基准上做了测试。即使离开 CLI 环境，LIMI 依旧显著优于基线。

尤其是在代码和科研任务里，LIMI 展现出了更强的泛化能力，这说明它学到的并不是环境特化的“技巧”，而是真正可迁移的策略模式。

实验部分带给我们的感受很清晰：这不是“以小博大”的运气，而是一种新的训练逻辑在发挥作用。于是问题变成了：为什么短短 78 条轨迹，能产生超过 1 万条数据都达不到的效果？

为什么78条能打穿1万条？

如果要给这个结果找一个核心逻辑，那就是：LIMI 重新定义了“什么叫有用的数据”。

在传统训练里，我们习惯把一条样本看成“问题—答案”的对映关系，模型最终学到的，只是如何在语料的空间里找到一个看似合理的补全。但 LIMI 里的每一条样本，是从问题到完成的全过程，包含了思考、工具调用、反馈、修复、再尝试。也就是说，模型不再是模仿一个“结果”，而是在跟随一段“经验”。

更关键的是，作者选取的场景并不是随便的，而是天然带强反馈的环境：写代码和科研工作流。这些任务会不断给出明确的信号——代码能不能跑通，实验能不能复现——于是每一次失败与修复，都会变成一条可迁移的经验路径。正是在这些路径中，模型学会了如何纠错、如何调整、如何走到终点。

再加上 CLI 环境的闭环设计，这些轨迹就不再是纸上谈兵的脚本，而是一步步真实的“操作日志”。这样的数据密度，远非那些成千上万条机械合成的样本能比。于是我们看到，在 AgencyBench 上，LIMI 只凭 78 条轨迹就拉开了超过 25 个百分点的差距。

这个现象并不是“偶然爆冷”，而是一个极其自然的结果：当你喂给模型的是经验而不是答案，它自然会变得更像一个“能干活的人”。

从“量”到“密度”的新范式

这篇论文真正有意思的地方，不是证明了“78 条胜过 1 万条”，而是让我们重新思考了一个长期被忽略的问题：智能体的训练，本质上是在教它如何工作，而不是让它背更多的答案。

当我们一味追求数据规模时，得到的是一个更“顺从”的助手，它能模仿更多的表面模式；而当我们转向数据密度，得到的却是一个更“聪明”的同事，它能把有限的经验提炼成可迁移的策略。

图 1–3 展示了什么叫“高密度样本”的构建逻辑，表 1 和图 4 给出了直观的数值与曲线，而公式里的与 FTFC 指标，则把这种直觉抽象成了可优化的训练目标。它们共同指向一个事实：智能体的瓶颈不是“缺少数据”，而是“缺少真正有用的数据”。

所以，当我们再谈“Less is More”时，它已不再是一句漂亮的口号，而是一个经过实验和理论双重验证的工程真理。未来谁能最先在自己领域里凑齐那几十条“黄金样本”，谁就可能最早把“会干活的 AI”送上生产线。

更多阅读

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签