微信扫码
添加专属顾问
我要投稿
面对企业AI应用成本失控的普遍困境,本文从真实案例与多源数据出发,揭示Token消耗的核心规律与管控盲区。核心内容:1. 企业AI应用(如Uber案例)面临的Token成本失控现状2. 基于三类数据源对Token消耗分布规律的深度剖析3. 建立透明成本管控机制的关键方向与建议
本文是本体论 Ontology 泛谈系列的第二篇,第一篇是RAGino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;line-height:1.6;letter-spacing:0.034em;font-style:normal;font-weight:normal;">《Agent 效果么?" data-itemshowtype="11" linktype="text" data-linktype="2">本体论又火了,他能优化我的 Agent 效果么?》
4 个多月前,Uber 开始向旗下约 5000 名工程师全面推广 Claude Code,该工具迅速在工程师群体中引发热潮,但 4 个月后使用量远超公司财务模型的预期,烧光了全年的 AI 编程预算[1]。这一案例引发了的社区的连锁讨论,一是控制 Token 消耗的最佳实践,二是如何量化商业价值。由此可见,鼓励开发者使用 AI 提效、加速产品迭代和创新的同时,建立透明的成本管控机制,将成为各大企业面临的重要课题。
Token 都烧在哪里?
Cloud Native
这是一个复杂的问题,既依赖严苛的统计学,又需要大量的合规样本。我们尝试从以下三类数据源,对 Token 消耗的分布,做一番初探:
学术论文 arXiv:2604.22750[2]、来自 Vantage.sh 的工程实测、Jake Nesler[3]、Reddit 1 亿 token 样本的消耗追踪[4]。
《How Do AI Agents Spend Your Money?》[2]发布于今年4月,对 Agent Token 的消耗作了非常系统的研究,核心发现是 Agentic 编程任务消耗的 Token 量是普通 Chat 的约 1000 倍,而 Input Token 而非 Output Token 主导了绝大部分成本;论文同时报告了一个反直觉的结论:Token 消耗与任务准确率之间几乎没有相关性(r < 0.15),即花更多钱并不能买到更好的结果。
Vantage.sh 是一家云成本管理平台公司,帮企业看清并优化多云环境下的费用支出,并提供成本报告、预算预警、资源优化建议等能力。他们在今年 4 月发布了《The Hidden Cost Driver in Agentic Coding: It's Not the Per-Token Price》[3],提供了有关 Token 消耗更加精确的数据:Agentic 编程会话的 Input/Output Token 比约为 25:1(约 100 万 Input vs 4 万 Output),Input 占总成本约 85%;Agentic 会话虽然只占总请求量的 1/10,却比非 Agentic 使用贵约 200 倍;并识别出会话分为三个阶段(探索→实现→测试迭代),其中前 10 轮的探索期 Token 消耗密度最高。
这是一位 Claude Code 重度用户在 r/ClaudeAI 发布的个人追踪数据(1289 次请求、1 亿 token 样本量)[4],其中 99.4% 的 AI 开销来自 Input Token;作为独立的、未经过滤的一手使用数据,它从实操层面印证了学术论文和 FinOps 报告的方向判断,Agent 的成本问题本质上是读太多,而非写太多。
综合以上来源,三份报告的共识是:Agent 的 Token 消耗绝大部分是 Input(理解/寻找),而非 Output(生成/输出),需要注意的是,以上三份报告未涉及多模态的输出,若考虑多模态,输出占比会显著提升。但它们均未对 Input Token 做进一步的细分归类。然而在实际使用中,Agent 读了很多并不能帮我们定位优化方,我们需要一个更细的分类框架。
下面这张表是我们基于个人使用 Agent 的经验,结合行业中对 Agent Input 行为的常见分类共识,所做的定性归因,分为文件检索、关系追踪、上下文管理、生成循环、工具交互。其中,高/中/低排序反映的是日常体感中各类动作对 Token 消耗的相对贡献,不是某个实验的精确测量结果。
C1(文件盲读)和 C2(依赖探索)是消耗最重的两个来源,合计构成了 Input Token 的主体。这与 Jake Nesler 的 "80% wasted finding things"、Vantage.sh 的 "re-reading files"、arXiv 的 "input tokens dominate" 三方互证。而 C4(生成迭代)和 C5(工具试错)虽然也消耗 Token,但在体感上远不如前两者夸张。
在这五大成本源中,C2(依赖探索)是最具结构性、最适合作为架构手段干预的一类。
为什么这么说?文件盲读(C1)虽然消耗同样重,但本质上是搜索问题,更好的索引、更精准的文件定位就能缓解。上下文重建(C3)可以靠更大的上下文缓存、记忆能力来优化。但依赖探索不一样,Agent 追踪的是实体之间的关系:A 调用 B、B 部署在 C、C 的 SLA 是几级、C 最近变更了什么。这种关系如果不被提前结构化,Agent 每次都得在纯文本中现场推断,推断失败就重来。接下来,我们将以依赖探索为关键词,聊聊我们的实践。
依赖探索的三个范式
Cloud Native
如果我们只看 Agent 如何获取依赖/关系信息这一条线,过去三年差不多走过了三个阶段。每一代都解决了上一代的核心痛点,也暴露了新的瓶颈。下面的演进对比中,我们用运维场景的例子来串联。
场景描述:一个名为 shopping-user 服务的告警响了,但根因实际在下游的 shopping-cart(一个用户 sleep + NPE、另一个自旋 500ms)。传统根因分析把矛头指向 shopping-user 本身,只有在明确知道“shopping-user 调了 shopping-cart、shopping-cart 调了 shopping-item”这条依赖链的情况下,Agent 才能沿着拓扑往下查到真正的故障点。
这是一个典型的依赖探索决定了诊断成败的场景,用它来展示三代范式如何处理依赖信息,这样最直观。
Stuffing 卡在容量,RAG 用检索把容量打开了;RAG 又卡在语义碎片化,我们拿到一段相关文本,依然不知道它和当前问题里的实体有没有直接的依赖关系;Ontology 则是把实体和实体关系提到了一等公民的位置,Agent 从在文本里推断关系变成了在图谱上查询关系。
Ontology 如何降低
依赖探索的 Token 消耗?
Cloud Native
我们从代码场景和运维场景两个方向,提供两组实证,探究“有 Ontology”和“没 Ontology”之间的具体差距。
2026 年 3 月,Martin Vogel 等人发表了 Codebase-Memory(arXiv:2603.27277)[5],用 Tree-Sitter 将代码解析为函数/类/调用链的持久化知识图谱,存储在 SQLite 中,通过 14 个 MCP 工具暴露给 LLM,实验结果是在 31 个代码仓库的 hub detection 和 caller ranking 任务上验证:有图谱的消耗约 1,000 token、token 消耗压缩 10 倍、工具调用减少 2.1 倍,没图谱的消耗了高达 10,000 token,实验覆盖 31 个代码仓库、66 种编程语言,方法是用 Tree-Sitter 将代码解析为持久化知识图谱存储在 SQLite 中,通过 14 个 MCP 工具暴露给 LLM。
代码场景的 Ontology 只是入门。企业运维场景的 Ontology,由于领域知识完全不在模型预训练范围内,效果会更为显著。
阿里云可观测团队在《一行代码实现智能异常检测:UModel PaaS API 架构设计与最佳实践》中给出了一个直白的对比。以下是开发者手动集成可观测数据时需要走的路径。如果让 Agent 在 runtime 重走同样的路径,每一步都要消耗对应的 Token。
但如果提供了 UModel 这类 Ontology,就能避免三类任务的 Token 开销。
是不是同一回事——映射关系已内置于 DataLink。模型变强后,还需要 Ontology 么?
Cloud Native
到这里,一个不可回避的问题浮出水面:如果上下文窗口持续变大、推理成本持续下降,Ontology 的价值会被“蛮力”吃掉吗?
我们的判断是:取决于领域。
对于代码场景,答案确实有些暧昧。代码是模型预训练的主战场,随着模型能力持续增强,它理解一个新 codebase 的能力确实在变强。在这个领域里,Ontology 的价值可能逐步被模型内化。
但一旦换运维(Ops)这种企业级领域,情况完全不同。我们认为这是一个 Ontology 价值最明确、最不可能被模型吃掉的正面案例。原因有三:
Palantir 是“企业 Ontology”商业价值最具说服力的验证案例。他们的核心产品 AIP(AI Platform)底层就是一套 ontology,把企业的人员、资产、流程、数据画成统一图谱,让 AI Agent 在上面做推理。Palantir 市值高达 3000 亿+美金,本质上是资本市场对“企业 Ontology”这个能力的定价,不只是省 token,更关键的是让 AI 输出变得可靠、可审计、可操作。
阿里云的 Ontology 实践:STAROps
Cloud Native
说到这里,我们想把讨论落到一个具体的、已经在线上运行的工程实践上。阿里云近期发布的全域智能运维平台 STAROps,它将大模型技术、UModel、RCA、RCA benchmark 进行有机结合,是国内在 AIOps 方向上把 Ontology 落地得较为完整的实践。其中,UModel 是本体论层,负责定义运维世界里的实体以及实体之间的关系。RCA,Root Cause Analysis,是阿里云可观测团队面向分布式系统故障诊断的实践方法论,RCA benchmark 提供了标准化根因分析评估数据集与评估协议体系,联合信通院、小鹏汽车、中科院软件共同发起。(https://starops.console.aliyun.com/)
接下来,我们通过一段实操视频,感受 Ontology 在运维场景故障诊断一个前端应用报错中所发挥的作用。
相关链接:
[1] Uber Burns Its 2026 AI Budget In Four Months On Claude Code
https://www.forbes.com/sites/janakirammsv/2026/05/17/uber-burns-its-2026-ai-budget-in-four-months-on-claude-code/
[2] How Do AI Agents Spend Your Money?
https://arxiv.org/abs/2604.22750
[3] The Hidden Cost Driver in Agentic Coding: It's Not the Per-Token Price
https://www.vantage.sh/blog/agentic-coding-costs
[4] Reddit 1 亿 token 样本的消耗追踪
https://www.reddit.com/r/ClaudeAI/comments/1roxoo5/i_tracked_100m_tokens_of_coding_with_claude_code/
[5] Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP
https://arxiv.org/abs/2603.27277
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-03
本体(Ontology)与知识图谱(Knowledge Graph)的区别
2026-05-28
本体论又火了,他能优化我的 Agent 效果么?
2026-05-26
思考的快与慢:用 Prolog 给 LLM 装上理性大脑,然后引入知识图谱,做结构化知识双向同步,这个 agent 能力有点炸裂...
2026-05-23
本体论与下一代企业架构
2026-05-22
如何为知识图谱选择合适的本体(Ontology)抽取方法
2026-05-16
知识图谱:审计人用了几十年的人脑关联,终于可以外挂到系统里了
2026-05-09
新电网毫秒级解决方案:远景能源基于 NebulaGraph 的应用
2026-05-07
腾讯混元干了件大事:Skill Graphs
2026-04-07
2026-03-26
2026-04-19
2026-03-28
2026-04-23
2026-04-22
2026-04-23
2026-05-07
2026-05-23
2026-05-09