2026年4月10日 周五晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

四期实验之后,我们总结出企业 Agent 进入深水区的公式

发布日期:2026-04-07 18:27:13 浏览次数: 1525
作者:Aloudata

微信搜一搜,关注“Aloudata”

推荐语

企业Agent如何突破浅水区?四期实验揭示深水区闭环公式,数据×技能×框架×模型缺一不可。

核心内容:
1. 企业Agent现状:大多停留在发邮件、填表单等浅层应用
2. 深水区闭环公式:语义层×Skill×Agent框架×LLM的乘法效应
3. 关键突破点:语义层确保数据确定性,避免分析结果随机性

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

作者|刘靓,Aloudata CMO

过去两周,我们做了一组实验。

用小龙虾(OpenClaw)接上 Aloudata CAN 的语义层,从最基础的「上月销售额是多少」问起,一路做到库存全盘诊断、四象限分类、渠道风险分级、补货促销行动方案——四期视频,每一期给 Agent 加一层能力,看它能走多远。

录第四期的时候,Claude Code 源码泄露了。512,000 行 TypeScript,一个顶级 Agent 产品的完整工程图纸摊在桌面上。全世界都在解读它的架构。

这两件事让我们对一个问题有了比之前更清晰的判断:企业 Agent 到底怎样才能进入深水区?

不是猜的。是测出来的。

01

大多数企业 Agent 还在浅水区

Agent 框架的爆发力有目共睹。但走进真实的企业,现阶段大多数跑起来的 Agent 在做什么——发邮件、填表单、整理会议纪要、生成周报摘要、从 CRM 里捞条记录。

写代码和写文章确实提效了。除此之外?都是浅活。

这些场景有个共同特征:不碰企业的数据分析和决策。不是不想碰,是碰不了。

碰不了的原因,四期实验给了非常清晰的答案。

02

深水区的闭环

先说深水区长什么样。

我们第四期视频用了一个库存场景。一个真正有用的库存 Agent 应该做到:先拉出全品类的售罄率和库销比,交叉分析定位问题商品;然后基于分析结论推导策略——这批该清仓、那批该补货、折扣给几折、补多少件;最后调用业务系统的接口把方案推出去。

Agentic Analysis(自主分析)→ Agentic Strategy(推导策略)→ Agentic Action(执行动作)。人只在关键节点校准方向和确认执行。

四期实验下来,我们发现这个闭环能不能跑通,取决于四个因子。

03

一个乘法公式

企业 Agentic 深水区的效果 = 语义层(数据) × Skill × Agent 框架 × LLM

是相乘,不是相加。任何一层拖后腿,整个链路效果就被系统性压低。模型用了最好的,Agent 效果还是不行——不是模型的问题,是别的因子在打折。

接下来我们逐个拆解。

04

语义层:远不止「查数准一点」

Agentic Analysis → Agentic Strategy → Agentic Action 这个闭环要跑起来,有一个硬前提:Agent 每一步用的数据必须是确定的、可审计的、每次一致的,并且要高性能灵活获取。一旦数据不确定,所有 Agentic 能力都会坍塌。

第二期实验的数据很触目:同一个模型、同一个数据集,Text-to-SQL vs 语义层,五个最基础的取数问题——坪效差了 253 倍,连带率差了 38%,复购率差了一倍。而且 Text-to-SQL 同一个问题问两次,答案不一样。用公式的框架翻译:Text-to-SQL 把「数据」这个因子变成了随机数。一个随机数乘进公式,整个闭环不可信赖

但如果语义层的价值只是「查数准一点」,它在公式里的权重不会这么大。真正让语义层成为企业级 Agent 刚需基础设施的,是实验环境里看不到、但企业场景中无法回避的几个问题。

Claude Code 泄露的架构里,让我印象最深刻的不是它多强大,而是它多「节省」——工具定义按需加载,初始上下文只放名字和一句话简介;对话历史反复压缩蒸馏;大结果写磁盘,只给模型一个文件路径。整个框架超过一半的工程量花在「怎么少往 context window 里塞东西」。为什么?因为 context window 就是 Agent 的工作台,空间是死的。每塞一段无关信息,就在挤压 Agent 用来思考和推理的空间。Claude Code 的工程师拿着 200K token 的窗口都如此精打细算。

有人会提出「把指标定义写进 Skill」这个方案——它本质上是要求 Agent 用最稀缺的资源(认知预算)承担一本字典的工作。5 个指标没问题,50 个开始吃力,500 个直接崩溃。

改成字典检索好一些,定义不常驻 prompt,按需检索。但 Agent 拿到了正确的定义之后,还要自己把它翻译成 SQL。翻译这一步,就可能错。我们的简单实验就证明了这是个高概率事件(见视频第二期,坪效问题)。

而且真实企业动辄几百上千个指标,口径还不是一成不变的。字典里要持续维护语义的频繁变更,还要期待没有错漏,AI 一定能找到,查对。

语义层的做法则是定义即执行。Agent 不需要理解定义、不需要翻译成 SQL,它只说「我要坪效」,语义层直接返回结果。中间没有翻译环节,就没有遗漏的机会。Agent 的认知预算 100% 花在分析和决策上,0% 花在理解数据口径和拼装查询上。这才是跟 Claude Code 架构思路一致的方向——把不该 Agent 操心的事,从 Agent 的认知空间里彻底移除。

实验环境里数据集是固定的,表结构不会变,也没有「定义谁说了算」的组织问题。在企业里这些全是现实。

口径写进 prompt——定义散落在各个 Skill 里,开发者写的,业务不知道。某天坪效的口径变了,prompt 没人更新,Agent 用错误定义跑了两周才被发现。谁的责任?说不清。维护口径字典——好一些,至少集中了。但一份文档没有审批流、没有版本号、没有变更通知。业务改了定义数据团队不知道,数据改了实现业务不知道。

语义层产品做的事本质上不同——它不是一本字典,而是一套组织契约。每个指标有明确的 owner,定义变更有审批流和版本记录,每次查询记录使用了哪个版本的定义。业务定义口径、数据实现逻辑、技术保障执行——三方的责任边界清晰。当 Agent 基于错误数据做了一个坏决策,「谁的责任」不再是一个政治问题,而是一条可追溯的审计链——定义是谁批准的、什么时候改的、Agent 用的是哪个版本,全部有据可查。

没有这套机制,没有哪个业务负责人敢把 Agent 的分析结果直接用于经营决策——不是不信模型,是出了问题没人兜底。

实验用的是 6 张表、标准星型模型。企业不是。企业的数据散在不同的系统里,每个系统有自己的数据模型和命名习惯。一个「客户综合价值」可能要关联 CRM 的画像、ERP 的交易、WMS 的退货、客服的投诉。让每个 Agent 自己理解这些跨多表的关联和 join 路径,等于要求每个 Agent 各自重建一遍语义层——不现实,而且会产生 N 个互相矛盾的「私有语义层」。

而且企业数据源不是静态的。ERP 升级换表名,业务系统迭代加字段,数仓重构改分层——大企业里这是月度事件。Agent 直写 SQL,每次 schema 变更都可能让所有相关 Agent 同时失效。语义层在这里是稳定契约:底层表怎么变,上层语义接口不变。没有这层抽象,Agent 的维护成本随数据源数量和变更频率指数级增长。

再加上权限和合规——不同角色看到的数据边界不同,监管审计要追溯每次数据访问的完整链路。语义层是在语义级别做权限和审计的唯一归口。

企业数据量级和个人实验完全不同。所有 Agents 各自对着数据湖写 naive SQL,不考虑分区裁剪、不复用物化视图、不做查询路由,计算成本会失控。

语义层因为理解业务语义,可以做查询级的优化——知道「月度收入」已经有物化好的聚合表就不再回扫明细表,知道「华北」的范围就能在查询计划中提前裁剪。这在单个查询上差异不大,但当多 Agent 协作架构下海量 Agents 每天发起成百上千万次数据请求时,语义级优化和无优化之间可能是十倍、百倍的算力成本差。

综上:

语义层解决的不只是「查数准」——它同时解决了认知效率、数据确定性、组织权责、变更吸收、合规审计和查询成本优化


这就是为什么它是公式中放大效应最显著的因子——不是锦上添花,而是没有它,Agent 根本上不了企业深水区场景的生产环境。

05

Skill:后两期实验的角色跃迁

第一期实验里,Agent 接上语义层后可以查数、看趋势、按渠道拆解。很有用,但每一步它给的都是一个数字。

第三期,我们给它装了四个分析 Skill——异常检测、趋势预测、压力测试、报告编排。Agent 从「报数」升级为「诊断」。回答的深度变了

第四期是更大的跳跃。我们装了一个库存策略 Skill,里面不是更深的统计方法,而是供应链运营的决策框架——四象限分类、生命周期判断、季节匹配、折扣规则、补货优先级。

一句「帮我看看库存有没有问题」,Agent 跑完全盘扫描后输出了这些:5 个品类的四象限分类(畅销、滞销、过季、断货);连衣裙被标了 P0 紧急清仓;裤子和上衣紧急补货;最终输出 19 个行动项的完整方案——清什么、补什么、折扣多少、补多少件、什么时候复查。

Agent 从数据分析师变成了业务策略师。变的不是分析方法的深度,是角色本身。

这两期实验验证了 Skill 在公式中的作用——分为两层:

  • 底层:通用的分析能力。查指标、做异常检测、做分析。这些跨行业复用,可以快速标准化。

  • 上层:场景编排。一个好的库存诊断 Skill,背后是供应链专家的分析方法论——先看什么、再算什么、怎么分类、最后输出什么建议。

编排型 Skill 的壁垒在哪里?不在代码。它的主体就是一个 .md 文件,复制很简单。但复制了也用不了——同一个库存诊断 Skill,换一家企业,库销比警戒线不一样、季节周期不一样、渠道策略不一样、甚至「滞销」的定义都不一样。企业认知不只是领域知识,还有行业特定的私域数据、组织架构、流程规范、甚至潜规则。编排层会差异化、行业化,这才是各家企业真正的壁垒。

当然,从实验到生产,Skill 管理本身也是一层不小的工程——企业级场景需要分类分级和权限控制、版本管理、变更审计链,以及 Skill 之间的冲突检测与依赖解析。这些 Skill 治理基础设施是从 Demo 走向生产的必经之路,篇幅所限不展开。

06

框架和模型:重要但正在被拉齐

大模型只会越来越强,模型很重要,但不是差异化的来源。两周的测试里让我最意外的,不是「好模型效果好」而是同一个模型,换一种框架和 Skill 配置,效果天差地别。

框架解决的核心问题是什么?管理 Agent 的认知预算——上下文窗口就这么大,好的框架让模型在有限的台面上高效调度。前面语义层那一节已经拆解过 Claude Code 架构在认知预算管理上的工程量——那些精细到几千 token 都要省的设计,说明框架绝对不是一层「胶水代码」。

把 Agent 效果不好归因于「模型不够好」,是最常见的思维惰性。

但 3 月 31 日之后,框架层的设计思想和工程模式不再是黑箱。框架的技术门槛正在被快速拉低,趋同是大方向。但值得一提的是,从开源骨架到企业级产品之间仍有大量工程——运维稳定性、边界 case 处理、工具链生态——这些不在源码里,需要时间积累。

07

回到公式

企业 Agentic 深水区的效果 = 语义层(数据) × Skill × Agent 框架 × LLM

模型在进化,框架正在趋同,Skill 可以累积和迭代——这三个因子起码大于 0。但没有语义层,「数据」这个因子就是负数:Agent 基于错误数据自主推导策略、自主执行动作,结果比不做还糟。

当四个因子到位,深水区的闭环就能跑通:自主分析 → 推导策略 → 执行动作。我们在实验中已经看到前两环运转的样子。第三环——Agent 通过接口直接调用下游系统完成调价、补货、调拨——需要业务系统的开放和治理体系的成熟,更长期,但方向确定。

行业趋势已经非常清晰,Agent 正在从「人触发、单次执行」走向「持续运行、主动感知」。当 Agent 能主动发现异常,主动启动归因,主动建议策略调整,语义层提供的数据确定性就不再是「重要」,而是生死线。

企业 Agent 的天花板不是模型的智能,是脚下的基础设施。语义层保障数据确定性和认知效率,Skill 体系将领域专家的认知编码为 Agent 可执行的方法论。两者叠加,Agent 才能从浅水区走进深水区。

最后预告下,我们的 Aloudata Agent 正在大幅迭代,跑同样的场景,效果比小龙虾 Demo 好很多,它不仅基于最好的 Agent 框架思想,更结合了关键的企业级特性。敬请期待。

四期视频使用的 Skill 全部开源,任何人都可以复现。

资源获取

  • 前四期视频 + 文章

期数

链接

第一期

给小龙虾装上业务大脑:两个 SKILL 让 OpenClaw 学会查数和归因

第二期

Text-to-SQL 没有答错,但答案不一定是你要的那个

第三期

装了分析 Skill,小龙虾从只会取数变成了真正的分析师

第四期

从「这里有风险」到「5 折清仓、补货 11 万件」:当 Agent 学会做业务决策

  • 申请 Aloudata CAN Demo 环境 API Key

  • Aloudata Agent 预约预览

参考文献(向下滑动查看更多)

  1. Claude Code 源码泄露事件(512,000 行 TypeScript 通过 npm source map 意外公开)— 来源:https://venturebeat.com/technology/claude-codes-source-code-appears-to-have-leaked-heres-what-we-know

  2. claw-code 开源项目(Claude Code 核心架构的 clean-room 重写,GitHub 历史上最快突破 100K stars 的仓库之一)— 来源:https://github.com/ultraworkers/claw-code

  3. 第一期视频实验数据(六轮对话、零行 SQL)— 来源:Aloudata 小龙虾 × CAN Demo 第一期

  4. 第二期视频实验数据(五轮对决:坪效 30.99/6.05 vs 1,527.77、连带率 58.40 vs 42.39、复购率 10.56% vs 21.40%)— 来源:Aloudata 小龙虾 × CAN Demo 第二期

  5. 第三期视频实验数据(电商渠道周转 157 天、全局平均 47 天)— 来源:Aloudata 小龙虾 × CAN Demo 第三期

  6. 第四期视频实验数据(19 个行动项、P0 紧急清仓 4 项约 57 万)— 来源:Aloudata 小龙虾 × CAN Demo 第四期






点击“阅读原文”进入 Aloudata 官网,或长按二维码,加入技术交流群,了解更多产品及最佳实践信息,期待您的留言、反馈、分享和交流。

从 OpenClaw 到企业 Agent:为什么真正的门槛在语义层

Gartner:40% 的 AI Agent 项目注定被砍

Snowflake SVA vs Aloudata CAN:两种语义层哲学的深度对比

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询