PaperWeekly 09月25日 23:44
78条高质量数据碾压大规模模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交大等机构的研究提出LIMI方法,颠覆了大模型训练“量比一切”的认知。该方法仅用78条人工挑选和合成的“高密度智能体轨迹”,就显著提升了基础大模型的智能体能力,在AgencyBench上超越了使用上万条样本训练的模型。LIMI方法强调“策略密度”而非数据规模,通过构建包含完整任务执行过程的训练单元,并聚焦于协作式软件开发和科研工作流等高信号密度场景,实现了智能体从“答案模仿”到“经验跟随”的范式转变,有效提升了模型在复杂任务中的实际执行能力和首轮任务完成率。

💡 **高密度智能体轨迹的重要性**:研究团队提出的LIMI方法核心在于“策略密度”,即每条数据所包含的有效策略信息量,而非数据总量。通过精心设计的78条人工挑选和合成的“高密度智能体轨迹”,LIMI方法能够显著提升大模型在智能体任务上的表现,甚至超越使用上万条样本训练的模型,颠覆了数据规模决定能力的传统认知。

🧠 **从“答案模仿”到“经验跟随”的范式转变**:LIMI方法重新定义了训练单元,不再是简单的“指令-答案”对,而是将一个完整任务的规划、执行、反馈、修复等全过程纳入其中。模型学习的是如何在复杂环境中逐步推进任务的能力,而非仅仅模仿一个最终结果。这种“跟随经验”的学习方式,使其在面对复杂、多步骤任务时表现出更强的适应性和主动性。

🛠️ **聚焦高信号密度场景构建训练数据**:研究团队聚焦于协作式软件开发(如代码编写、调试)和科研工作流等天然具备高反馈信号和策略密度的场景来构建训练数据。这些场景下的任务轨迹,平均长度高达42k tokens,最长达152k tokens,详细记录了从起步到完成的完整决策链。在SII CLI环境下的采集,确保了数据的可复现性和真实性,避免了“纸上谈兵”。

🚀 **显著的性能提升与泛化能力**:实验结果显示,LIMI方法仅用78条样本,在AgencyBench上的平均得分显著高于使用1万条样本训练的模型,并且在第一轮任务完成率(FTFC)上表现更优,意味着模型能够“开局就踩准关键点”。此外,LIMI方法在CLI环境外的其他基准测试中也展现出更强的泛化能力,证明其学到的是可迁移的策略模式而非环境特化技巧。

原创 让你更懂AI的 2025-09-25 22:21 北京

只用78条数据,模型一脚碾压大规模对手!

在大模型圈,有一个几乎铁律般的直觉:更多数据,就意味着更强的能力。无论是预训练还是指令微调,大家的共识都是“量就是一切”。但这次,来自上海交大等机构的一篇论文却把这条规律颠覆了。 

研究团队提出了一个名为 LIMI (Less Is More for Intelligent Agency) 的方法:他们只用 78 条人工挑选和合成的“高密度智能体轨迹”,就让一个基础大模型的智能体能力在 AgencyBench 上一举飙升,超过了靠上万条样本训练出来的对照模型。 

最关键的是,这不是靠什么隐秘的“黑魔法”,而是一个朴素到近乎直觉的发现:智能体要学会“干活”,靠的是每条数据里有多少“策略密度”,而不是简单的规模堆砌。

论文标题:

LIMI: Less is More for Agency

论文地址:

https://arxiv.org/pdf/2509.17567

GitHub地址:

https://github.com/GAIR-NLP/LIMI

为什么“多”不一定“强”?

在过去两年,智能体(Agent)的发展几乎成了大模型最火的赛道。从最初的 ReAct、Toolformer 到后来的多代理协作、Agent Foundation Models,大家都在追求一个目标:让 AI 不只是回答问题,而是能闭环执行任务

但现实却是:大多数智能体在复杂场景里依旧不堪一击。我们习惯了用“语言建模的逻辑”来训练智能体:靠规模取胜——合成成千上万条任务数据,记录成千上万条执行轨迹,然后直接喂给模型。

问题在于,这类数据大多数是低密度的。它们往往覆盖的是一些模式化的、机械重复的任务:比如改写文本、生成摘要、修复简单代码。模型确实会变“听话”,但当面对复杂的、多步骤的任务时,它们显得手足无措。因为这些低密度样本里,缺少真正能迁移的“策略信号”。

换句话说:数据量再大,如果每条数据都“信息稀薄”,那堆出来的还是个只会模板化执行的助手,而不是能主动完成工作的“同事”。

于是,这篇论文抛出了一个关键问题:与其问“我们需要多少数据”,不如问“每条数据里能装下多少策略”。

从“量”到“密度”的范式转变

第一步:重新定义训练单元。 

传统的 SFT(监督微调)样本,就是一个「指令 → 答案」。但 LIMI 的思路是:把一个完整任务的全过程都纳入训练单元。

形式化地说,每个任务由一个查询  触发,配套的执行轨迹为:

其中每个动作  可能是:

    思考(model thought) 

    工具调用(tool invocation) 

    环境观察(observation) 

于是监督微调目标函数变成了:

其中  表示轨迹中到第  步的上下文与环境状态。换句话说,模型学到的不是“答案”,而是在复杂环境中一步步推进的能力。

▲ 图1. 以“五子棋开发”为例,一条任务轨迹被拆解为规划—执行—反馈的长链,模型学习的是如何逐步推进而不是直接给答案。

第二步:构建高密度任务池。

研究团队聚焦两个天然“信号密度高”的场景: 

他们人工采集了 60 条真实任务,并从 GitHub PR 中精选出 18 条合成任务(排除掉文档更新等无效改动)。最终形成了 78 条黄金样本。 

这些轨迹的平均长度高达 42k tokens,最长甚至 152k tokens。每一条都像一本“实验日记”,承载了从起步到完成的完整决策链。

▲ 图2. 数据构建流水线,左侧是真实任务采集,右侧是GitHub PR合成,最后都在CLI环境下生成可复现轨迹。

▲ 图3. 轨迹长度分布与任务覆盖,展示了样本内部的“策略密度”。

第三步:固化环境,形成闭环。 

所有数据都在 SII CLI 环境下采集。这个环境允许:

这就避免了“纸上谈兵”的伪轨迹,让模型直接暴露在真实的决策链中。

78条样本,碾压1万条?

真正让人震撼的,是实验环节。研究团队在 AgencyBench 上做了系统对比,本意可能只是想验证一下“小规模精炼数据”能不能跑得起来,结果却直接跑出了“惊天反转”。 

在基线 GLM-4.5 上,不做任何智能体训练时平均分是 45.1%;如果再拿 1 万条合成的代码代理数据来做监督微调,分数也只是略微提升到了 47.8%。然而,当作者只用那 78 条精心设计的黄金样本时,分数直接飙升到 73.5%。

▲ 表1. 不同模型在AgencyBench上的对比,LIMI(78条样本)显著超越1万条数据的微调模型。

这个结果意味着什么?意味着当数据质量足够高、每条都能传递“策略密度”时,规模反而成了次要因素。128 倍更少的数据,却换来了超过 25 个百分点的性能提升。

而且,作者并没有满足于“平均分高”这一点。他们进一步考察了一个更关键的指标:第一轮任务完成率(FTFC)

在传统智能体中,常见的情况是模型会反复试错——先胡乱调用工具,再根据报错信息修修补补,最后可能凑出一个能跑的答案。但这种“试错式成功”,在真实生产环境里几乎毫无价值。真正有价值的,是模型能不能在第一步就走在正确轨道上。

结果显示:LIMI 在 FTFC 上达到了 71.7%,而基线模型只有 37.8%。换句话说,LIMI 学到的不是“多试几次蒙对”,而是“开局就踩准关键点”。

▲ 图4. Less-is-More效应曲线,78条高密度样本在性能曲线上远超大规模低密度数据。

这张曲线非常直观:在横轴样本量不断增加的过程中,大规模低密度数据的收益曲线几乎是平的,甚至在加入更多样本时反而出现了性能下滑;而 LIMI 的曲线像是直接跳了一个台阶,表明它学到的信号完全不同。

更妙的是,这种优势并不局限于 AgencyBench。作者还在 TAU2-bench、EvalPlus、DS-1000、SciCode 等外部基准上做了测试。即使离开 CLI 环境,LIMI 依旧显著优于基线。

尤其是在代码和科研任务里,LIMI 展现出了更强的泛化能力,这说明它学到的并不是环境特化的“技巧”,而是真正可迁移的策略模式

实验部分带给我们的感受很清晰:这不是“以小博大”的运气,而是一种新的训练逻辑在发挥作用。于是问题变成了:为什么短短 78 条轨迹,能产生超过 1 万条数据都达不到的效果?

为什么78条能打穿1万条?

如果要给这个结果找一个核心逻辑,那就是:LIMI 重新定义了“什么叫有用的数据”。

在传统训练里,我们习惯把一条样本看成“问题—答案”的对映关系,模型最终学到的,只是如何在语料的空间里找到一个看似合理的补全。但 LIMI 里的每一条样本,是从问题到完成的全过程,包含了思考、工具调用、反馈、修复、再尝试。也就是说,模型不再是模仿一个“结果”,而是在跟随一段“经验”。

更关键的是,作者选取的场景并不是随便的,而是天然带强反馈的环境:写代码和科研工作流。这些任务会不断给出明确的信号——代码能不能跑通,实验能不能复现——于是每一次失败与修复,都会变成一条可迁移的经验路径。正是在这些路径中,模型学会了如何纠错、如何调整、如何走到终点。

再加上 CLI 环境的闭环设计,这些轨迹就不再是纸上谈兵的脚本,而是一步步真实的“操作日志”。这样的数据密度,远非那些成千上万条机械合成的样本能比。于是我们看到,在 AgencyBench 上,LIMI 只凭 78 条轨迹就拉开了超过 25 个百分点的差距。

这个现象并不是“偶然爆冷”,而是一个极其自然的结果:当你喂给模型的是经验而不是答案,它自然会变得更像一个“能干活的人”。

从“量”到“密度”的新范式

这篇论文真正有意思的地方,不是证明了“78 条胜过 1 万条”,而是让我们重新思考了一个长期被忽略的问题:智能体的训练,本质上是在教它如何工作,而不是让它背更多的答案。

当我们一味追求数据规模时,得到的是一个更“顺从”的助手,它能模仿更多的表面模式;而当我们转向数据密度,得到的却是一个更“聪明”的同事,它能把有限的经验提炼成可迁移的策略。

图 1–3 展示了什么叫“高密度样本”的构建逻辑,表 1 和图 4 给出了直观的数值与曲线,而公式里的  与 FTFC 指标,则把这种直觉抽象成了可优化的训练目标。它们共同指向一个事实:智能体的瓶颈不是“缺少数据”,而是“缺少真正有用的数据”。

所以,当我们再谈“Less is More”时,它已不再是一句漂亮的口号,而是一个经过实验和理论双重验证的工程真理。未来谁能最先在自己领域里凑齐那几十条“黄金样本”,谁就可能最早把“会干活的 AI”送上生产线。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 AI智能体 数据密度 LIMI 策略密度 监督微调 SFT Large Language Models AI Agents Data Density Strategy Density Supervised Fine-Tuning
相关文章