我要投稿

小语言模型才是Agentic AI的未来？

发布日期：2025-07-21 08:21:01 浏览次数： 1856

作者：小小何先生

微信搜一搜，关注“小小何先生”

分享一个Nvidia的呼吁：

先说主基调：能用大模型谁还需要用小模型？就是因为大模型用不起（包括设备，延时等等）。那剩下的问题就是小模型到底能不能抗住用户的需求？

作者认为，小型语言模型（SLMs）在很多场景下比大型语言模型（LLMs）更适合用于构建“代理式人工智能系统”（Agentic AI Systems），因为它们：

能力足够：在许多实际任务中，小模型已经足以胜任，甚至能匹配更大模型的效果。
操作更高效：运行成本低、响应更快、更适合模块化系统。
更经济可持续：部署成本、能耗更低，更适合大规模应用和边缘设备部署。

1. 背景介绍

Agentic AI 是指能够自主执行任务的 AI 系统，比如智能客服、代码代理、办公自动化助手等。虽然目前主要依赖大型语言模型（如 GPT-4），但作者认为这不是最优方案。

2. 提出立场

作者定义 SLM 为“能在普通消费级设备上低延迟运行的模型”（通常参数量低于 10B），并提出立场：

小型语言模型在能力、适配性和成本方面，普遍优于 LLM，是 Agentic AI 的未来。

3. 论据支持

能力足够（如 Phi-2、Phi-3、NVIDIA Nemotron-H、DeepSeek 等 SLM 与 LLM 对比表现）；
更便宜（推理成本更低，易于边缘部署和快速微调）；
更灵活（适合定制化、多模型组合、快速响应业务需求）；
任务需求有限：多数代理任务需求单一、可预测，没必要动用复杂模型；
行为一致性要求高：SLM 更容易精准输出固定格式，更利于系统集成；
多模型组合自然：代理系统本身就可使用多个模型，SLM 用于基础任务，LLM 用于复杂推理更为合理。

4. 反对观点及回应

有人认为 LLM 具有更强的通用理解能力，但作者反驳说这种泛化能力在具体、重复的代理任务中用处不大；
有人认为 LLM 推理成本会因规模化而变低，作者指出最新的推理框架和边缘部署能力已使 SLM 更具优势；
市场惯性与投资方向暂时让 LLM 占主导，但这不是长期最优方案。

5. 现实障碍

当前基础设施投入更偏向 LLM；
评估标准仍偏向通用任务，而非代理任务；
市场对 SLM 的关注和认知不足。

6. 转换建议

文章最后提出了一个具体的“LLM → SLM 转换算法”，帮助开发者将现有使用 LLM 的代理系统迁移到 SLM，包括数据收集、任务聚类、模型选择、微调等步骤。

7. 案例研究

作者分析了三个开源代理系统（MetaGPT、Open Operator、Cradle），并估计它们有 40%–70% 的任务可用 SLM 替代 LLM，有效降低运行成本。

最后在实际工业场景中，需要大模型处理的时候让大模型来，不需要，或者有更多很简单的方式来实现的就直接实现了。端到端固然好，但是落地归落地，paper归paper，一码归一码。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-20

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

2025-10-20

端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法

2025-10-20

Prompt 工程进阶——让 DeepSeek 学会你的测试风格

2025-10-20

美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

2025-10-20

几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025-10-20

AI Agent 上下文管理：基于搭叩的七大原则与实践

2025-10-20

当 AI 走进前端开发：代理插件的全流程开发实践

2025-10-20

AI Workflow Builder王炸劝退：n8n、Coze、Dify等AI工作流不要学了

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

WAIC 2025 观察：大模型进入“效率与场景”决胜期

2025-07-29

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

大家都在问

几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025-10-20

AIOps探索：做AIOps智能体，是直接调用公共大模型还是要部署私有大模型？

2025-10-20

Agent 热潮下，语料如何成为 AI 落地与 ISV 变现的关键燃料？

2025-10-19

一文搞懂SFT vs RLHF：阿里、字节、腾讯都怎么用?

2025-10-18

Claude Skills 会替代 MCP 吗？

2025-10-18

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

大模型会替代搜索引擎么?

2025-10-16

OpenAI“隐秘客户榜”曝光：谁在烧掉上万亿Token？

2025-10-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB