36氪 - 科技频道 08月05日
英伟达最新研究:小模型才是智能体的未来
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达研究院与佐治亚理工大学的最新研究提出,小语言模型(SLM)而非大型语言模型(LLM)才是AI智能体的未来。研究指出,SLM在处理AI智能体中重复性、专一性任务方面已足够强大,且其轻量化、灵活的特性更符合智能体系统的架构需求。从经济效益角度看,SLM能显著降低AI运行成本,提高效率。文章通过比喻和实际测试数据,论证了SLM在工具调用、常识推理和指令遵循方面的潜力,认为其在实际工作流中的计算量可大幅降低。尽管行业存在路径依赖和对“大即是好”的偏见,但通过数据梳理、任务微调和技能聚类,SLM有望释放其在AI智能体领域的巨大潜力,实现AI的“民主化”。

🤖 SLM的优势在于其专精性与效率:研究认为,AI智能体的多数任务是重复且专一的,例如邮件检查或报告生成。使用庞大的LLM来执行这类任务如同“用超级计算机玩扫雷”,资源浪费严重。SLM因其规模小、训练成本低(数小时GPU即可),且易于适应新需求(如法规更新),能够高效地完成这些特定任务,实现成本的极大优化。

💡 SLM更契合智能体系统架构:AI智能体被视为“工具箱+大脑”的系统,其天然的异构性允许混合使用不同模型。SLM的轻量化和灵活性使其易于集成到智能体架构中,例如作为处理工具调用的子任务模型,而将LLM保留用于不常见的开放式问答或复杂推理。这种模块化的设计不仅能节省成本,还能提升整体系统的响应速度和准确性。

🚀 SLM性能已可媲美大模型并显著降低计算量:最新的研究表明,如Phi-3和Hymba等前沿SLM在工具使用、常识推理和指令遵循等方面的表现,已能与30B至70B参数的大模型相媲美。然而,在实际工作流中,SLM所需的计算量却能降低10-30倍。英伟达对MetaGPT、Open Operator和Cradle等真实AI智能体的测试也显示,高达40%-70%的任务可由SLM替代。

📈 SLM的应用推动AI的“民主化”和数据良性循环:SLM的低成本和易部署性有助于降低AI开发的门槛,让更多人能够参与到智能体开发中,从而减少偏见并促进创新。此外,智能体运行时产生的专精数据,可用于微调SLM,形成一个数据驱动的良性循环,不断提升模型性能,使其结果愈发精准。

📉 行业转型面临路径依赖与认知偏见:尽管SLM潜力巨大,但行业内仍存在路径依赖,大量资金已投入中心化的大模型基础设施,使得转向更轻便的本地化选项面临阻力。同时,“大即是好”的偏见依然普遍,对小模型的评估往往沿用大模型的标准,未能充分体现其在智能体任务上的独特优势。改变这种局面需要研究人员和智能体构建者主动收集数据、微调模型并构建SLM的“技能库”。

英伟达研究院和佐治亚理工大学的研究人员最近发表了一篇论文,抛出了一个非共识的观点:

小语言模型(SLM)才是AI智能体的未来,而不是那些庞大的大型语言模型。

https://arxiv.org/abs/2506.02153v1

作者核心理由主要是以下三点:

首先,SLM已经足够强大,能处理AI智能体中大多数重复、专一的任务;其次,它们天生更适合智能体系统的架构,灵活且易集成;最后,从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本。

想象一下,AI智能体系统就像一个虚拟团队,能自动分解任务、调用工具(比如浏览器或代码编辑器),最终解决问题。目前,大多数AI智能体都依赖LLM作为“大脑”,因为LLM聊天能力强、知识广博,能处理各种复杂问题。

论文指出,2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用。但问题来了:AI智能体的任务往往重复单一,比如“检查邮件”“生成报告”,用LLMs这种“全能选手”来干这些活,就好像用超级计算机玩扫雷,开兰博基尼送披萨——过于浪费资源。

而且不单是浪费,智能体系统任务的特点也使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果。

因为本质上AI智能体不是聊天机器人,而是“工具箱+大脑”的系统。SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规)。这带来“民主化”,从而能让更多人能开发智能体,减少偏见,促进创新。

作者指出,智能体任务只用LLM的一小部分技能,如格式严格的工具调用。而AI智能体系统天然异构就利于混用模型,主智能体用LLM,子任务用SLM。

而如果大量采用SLM,还能发挥数据收集优势:智能体运行时,自然产生的专精数据,可以用来微调SLM,形成良性循环,从而使得结果越来越好。

01

什么是SLM

论文对SLM给出了一个实用的定义:

SLMs:能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求。目前,10亿参数以下的模型可以算是SLM。而其他更大的模型,通常需要云端服务器支持。

为什么这样定义?SLM像“便携大脑”,适合终端部署;LLM像“宇宙级超级电脑”,但延迟高、成本大。

作者给了一个很极端但是又很有意思的例子做比喻:如果AI无限大,会受光速限制没法实时互动;无限小,又太弱没法做事。人类大脑就是平衡点,SLM就像人类大脑这个平衡点,高效,易于迭代。

作者对比两种类型的智能体结构:

在左侧,一个语言模型与用户聊天并直接触发每个工具,因此整个流程都位于该单个模型中。

在右侧,一个小型控制器程序处理工具调用,让模型专注于对话或特定推理。

这种拆分使得为大多数调用插入小型语言模型变得容易,节省成本,并将大型模型仅保留用于不太常见的开放式问答或者推理步骤。

论文表示,最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍。

英伟达还对三款真实世界的AI智能体进行了测试,发现:

MetaGPT:60%的任务可以用SLM取代

Open Operator:40%的任务可以用SLM取代

Cradle(图形界面自动化):70%的任务可以用SLM取代

02

SLM那么好,为什么还要用LLM呢?

论文认为AI智能体没有大规模利用SLM的主要原因还是因为路径依赖。

大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,而不是转向更轻的本地选项,短期内难以转变。

行业内对「大即是好」的偏见依然强烈。对小型模型的研究一直在追逐用于大型模型的相同广泛基准,而这些测试都体现不出于小模型在智能体任务上的优秀表现。

SLM几乎没有GPT-4那样的热度,小模型也不像让大模型那样经历了一轮一轮的营销热潮,因此许多构建者从未尝试过更便宜更合理的路线。

对此,论文认为如果研究任务员和智能体搭建者能够做到一下几点,那么将能很好的发挥SLM在智能体方面的潜力。

-收集梳理数据

-针对特定任务微调SLM

-把任务进行聚类并建立SLM的“技能”

03

华人作者介绍

SHIZHE DIAO

根据他领英公开的资料,他先后就读于北京师范大学,香港科技大学,曾经在UIUC做过访问学者。

曾经在字节AI LAB做过实习,2024年加入英伟达担任研究科学家。

Xin Dong

根据他的个人博客,他博士毕业于哈佛大学。曾经在腾讯,Meta等公司有过工作和实习经历。

Yonggan Fu

根据他的领英公开资料,他本科毕业于中国科学技术大学,在莱斯大学和乔治亚理工完成了自己的博士学业。

在Meta和英伟达实习过,现为英伟达研究科学家。

本文来自微信公众号“直面AI”,作者:胡润,编辑:王靖,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小语言模型 AI智能体 大型语言模型 模型效率 AI技术趋势
相关文章