Zilliz 09月25日
小语言模型或成Agent AI未来
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达最新论文指出,小语言模型(SLM)凭借高效、低成本等优势,或将成为Agent AI的未来。SLM更适合企业基础设施,更能满足多数应用中执行少量、专门化任务的需求。英伟达提供将Agent系统从LLM迁移到SLM的转换算法,并推荐了多款SLM模型。

🔍 小语言模型(SLM)参数量低于100亿,更适合企业基础设施,在多数应用中执行少量、专门化任务时,比大语言模型(LLM)更高效、更省钱。

📈 大模型成本高昂,硬件成本是软件营收的10倍,很多大模型应用甚至大模型企业根本活不到能赚钱的那一天。SLM的崛起将解决这一难题。

🧪 英伟达通过实验对比了SLM和LLM在MetaGPT、Open Operator、Cradle等开源agent中的表现,结果显示约60%-70%的查询可用专门化SLM稳定承接。

💰 SLM在推理效率、集群简化、微调敏捷、端侧部署、参数利用、模块化系统等方面具有成本优势。预训练与微调成本更低,SLM更灵活。

🔄 英伟达提供了将LLM切换为SLM的六步转换算法,包括收集使用数据、数据整理与过滤、任务聚类、SLM选型、专家SLM微调、迭代与优化。

🌟 英伟达推荐了多款SLM模型,包括Microsoft Phi系列、NVIDIA Nemotron-H家族、HuggingFace SmolLM2系列等。

原创 和你一起学习的 2025-09-04 18:07 上海

有多少agent的成本已经算不过来了?

不久前,作为这波大模型浪潮中,最大的红利收割方,英伟达发了一篇论文

Small Language Models are the Future of Agentic AI》

取代LLM,SLM才是agentic AI 的未来

所谓SLM,即Small Language Models ,小语言模型。

这么说的原因在于,英伟达观察到,随着agentic AI 系统崛起,其实模型在多数应用中,都在执行一少量、专门化的任务,变化很小

而在这些系统中,SLM 已经足够强、更适合企业的基础设施、并且必然更省钱。对应SLM 崛起,异构agentic systems 也将随之崛起(一个应用同时调用不同模型)。

顺应这个趋势,英伟达也给出了把agent系统从 LLM 迁移到 SLM的转换算法(文末有英伟达推荐SLM彩蛋)。

01 

为什么需要SLM?

多数LLM 活不到盈利那天

为什么需要把LLM 迁移到 SLM,英伟达给出了两个原因:

原因一:现如今消费电子普及,把模型装进手机、手表、电脑,让模型在本地运营已经成为大势所趋。

原因二:大模型的成本与营收之间,已经出现巨大GAP。2024 年,面向agent的 LLM 推理 API市场规模估计为 56 亿美元,对应的云端推理基础设施投资为570 亿美元。

也就是说,硬件成本是软件营收的10倍。而过去,我们默认的SaaS与互联网山商业模式,则是 3–4 年内回本,或者说3-4年完成设备折旧。

通过这么一个简单的算术题不难发现,按照现如今的发展模式,很多大模型应用,甚至大模型企业,根本活不到能赚钱的那一天。

既然大模型这条路,不适合所有场景,小模型SLM(这里定义为参数量低于约 100 亿)自然就要登场。甚至成为agentic AI的顶梁柱。

对agentic AI来说,多数子任务都是重复、收敛、非对话式的,最需要的是高效、可预测、低成本。而相比传统LLM,SLM的优势恰在于此。也是因此,坚持“事事都用 LLM”,实质上是在错配算力,agentic AI更需要异构体系:默认用 SLM,必要时择时少量调用 LLM。

02  

SLM取代LLM,效果如何

英伟达用几个开源agent(MetaGPT、Open Operator、Cradle)做了几个实验对比,结果如下:

(1)MetaGPT

agent简介:这是一个multi-agent framework,通过模拟软件公司的协作流程(产品、架构、工程、QA),覆盖需求、设计、实现与测试等领域。

LLM 调用点:角色行动(编码/文档)、模板化提示、动态规划/推理、RAG。

SLM 替代评估:常规代码生成、样板产出、模板化结构化响应可由 SLM 胜任。更复杂的架构推理、适应性规划或调试,初期仍更依赖 LLM 的广域理解。

结论:约 60% 的查询可用专门化 SLM稳定承接。

(2)Open Operator

agent简介:工作流自动化agent,允许用工具/服务去做 API 调用、监控与编排。

LLM 调用点:意图解析、流程决策、内容生成(摘要、报告)。

SLM 替代评估:简单命令解析与路由、模板化消息生成适合 SLM。多步推理或需要长时上下文维持的对话,LLM 仍具显著优势。

结论:约 40% 的查询可用专门化 SLM可靠承接。

(3)Cradle

agent简介通用电脑控制(GCC,让代理通过截图与模拟操作去驱动 GUI 应用。

LLM 调用点:界面理解、任务序列规划、异常处理。

SLM 替代评估:重复性的 GUI 交互流程、预学会的点击序列由 SLM 处理良好;但动态界面适配、非结构化的故障应对,仍更仰赖 LLM 的上下文理解。

结论:约 70% 的查询可用专门化 SLM稳定承接。

03 

SLM 的成本与灵活性如何?

我们先看成本,英伟达发现:

围绕灵活性,英伟达则认为

因为预训练与微调成本更低,SLM 天然更灵活:更容易训练多个专家模型去覆盖不同agent子流程,快速迭代以响应新需求(新行为、新格式、新合规要求等)。

至于LLM,的确能灵活,更强大,但是agentic系统,本质上是高度指令化、由外部精密编排的人机界面 + 工具集合的网关。原本“强通才”的 LLM,在一串繁琐提示与严密上下文管理下,被限制在其能力边界的窄小一角,有大材小用的嫌疑。

此外,在典型的AI agent需要有频繁的代码交互,在此过程中,工具调用和生成内容的输出必须符合工具参数的顺序、类型和性质。在这种情况下,模型无需处理多种不同的格式,对泛化能力需求不强。而使用单一格式决策进行训练与微调的 SLM,对固定格式的响应能力其实强于LLM。

此外,SLM 还可用自洽采样验证器反馈工具增强等推理时技巧进一步做能力增强:例如 Toolformer(6.7B)借助 API 表现可以胜过 GPT‑3(175B);1–3B 小模型通过结构化推理可在数学题上逼近/追平 30B+。

而放眼未来,agent里的工具/模型调用,往往伴随非常具体的上下文工程实践,这全都是未来优化专家型SLM的天然数据来源,长此以往形成的良性循环,更加有利于SLM在agent中取代LLM。

04 

几个辩证观点

对于几个业内主流的LLM一定优于SML的观点,英伟达也给出了反驳。

1、scaling law背景下,同代的大模型在性能上总会压过小模型。此外,大模型的泛化能力更强。

反驳:scaling law依然有效,但是它的前提是相同架构。但即使是同代模型,LLM与SLM往往也会采用不同的模型架构。此外,小模型针对特定任务微调的难度与效果也往往更优,更重要的是大模型的泛化能力,应对的是复杂输入,但是agenticAI存在的必要性,即在于把复杂任务拆解成一系列简单可执行的子任务。

2、LLM 的推理更集中,因此更便宜,此外SLM有一系列的微调、开发、运维成本。

反驳:这个观点的确是对的,但是我们也要注意到,长期看基础设施成本在降低;最新技术优化了 SLM 的负载均衡问题,也提升部署灵活性。

05 

从 LLM 到 SLM 的转换算法

以下是英伟达给出的在agentic AI系统中,把 LLM 切换为 SLM 的步骤:

第一步:收集使用数据(Secure usage data collection)

第二步:数据整理与过滤(Data curation and filtering)

第三步:任务聚类(Task clustering)

第四步:SLM 选型(SLM selection)

第五步:专家 SLM 微调(Specialized SLM fine-tuning)

第六步:迭代与优化(Iteration and refinement)

06 

尾声

通常来说,大模型经过海量数据的训练,其参数中已经隐含了大量的知识,能够处理更广泛的任务和更复杂的上下文理解。

而小模型通常参数量较少,计算需求较低,适合在资源受限的环境中使用,但它们的知识库相对有限,无法应对跨领域的复杂问题。

在这一背景下,通过引入外部向量数据库,可以扩充其对不同主题的处理能力。如对这一方面感兴趣,可参考我们的历史RAG教程。

rag 与agent 教程系列

彩蛋

英伟达严选SLM

首先,我们必须承认scaling law依然有效,但是作为同代产品的小模型与大模型之间的性能差距,正随训练与架构改进而陡峭缩小

更重要的是,在agent情境下,sota并非必须,我们通常只需要关注三个核心指标:常识推理、工具调用与代码生成、指令跟随

以下几个SLM是英伟达严选推荐:

Microsoft Phi 系列:Phi‑2(27 亿)在常识推理与代码生成上可与 300 亿级别模型比肩,且推理速度提升可达 15×

Phi‑3 small(70 亿)在语言理解、常识推理上与同代更大模型相当,代码生成可追平同代 700 亿级别模型。

NVIDIA Nemotron‑H 家族:2/4.8/9B 的混合 Mamba‑Transformer,在指令跟随代码生成上可比肩 30B 稠密 LLM,且推理 FLOPs 低一数量级

HuggingFace SmolLM2 系列:125M–1.7B 的紧凑模型,在语言理解、工具调用、指令跟随上与14B 不相上下,并可匹敌两年前的 70B

NVIDIA Hymba‑1.5B:通过Mamba+注意力的混合头 SLM,在指令准确性上拔尖,吞吐量是同体量 Transformer 的 3.5×,在指令跟随上甚至超越了更大的 13B。

DeepSeek‑R1‑Distill 系列:1.5–8B 的推理模型家族(蒸馏自 DeepSeek‑R1),常识推理强,7B 变体在若干评测中胜过专有大模型(如 Claude‑3.5‑Sonnet‑1022、GPT‑4o‑0513)。

DeepMind RETRO‑7.5B检索增强 Transformer,参数仅 7.5B,却可在语言建模上逼近 GPT‑3(175B),参数少 25×

Salesforce xLAM‑2‑8B:在具调用上达SOTA,甚至超过 GPT‑4o、Claude 3.5 等前沿大模型。

如果大家还有更多推荐的SLM,欢迎在评论区留言推荐。

推荐阅读

首个Nano-banana企业级多模态RAG教程,适合电商、游戏场景

向量检索快比LLM还贵?不支持S3的向量数据库,迟早要淘汰!

国内首个 LangGraph Agent 模板!Multi-Agent框架最优解

全面测评LangChain vs LangGraph:谁是agent落地最优解

Embedding无敌?是做文档处理RAG最大的幻觉(含LangExtract+Milvus教程)

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小语言模型 大语言模型 Agent AI 英伟达 成本 效率
相关文章