微信扫码
添加专属顾问
我要投稿
掌握AI Agent的省钱秘籍,让你的账单从30美金降到5美金。本文通过实际案例与公平测试,揭示降低AI使用成本的核心方法。核心内容:1. AI Agent从“效果”到“账单”的焦点转移与真实烧钱案例2. 如何设计公平测试,量化不同Agent间的成本差异3. 实现成本降低90%的具体策略与实操建议
过去一年,大家讨论 AI Agent 的话题主要还是"它到底能不能干活"。能写代码吗?能跑长任务吗?能自动调工具吗?
这一年下来,这些问题陆续都有了答案。能。Opus 4.7、GPT-5、Gemini 3,这一档强模型加上一个像样的 Agent 框架,大部分日常任务都能跑通。
效果不再是问题。新的问题是——账单。
前几天我刷到傅盛一篇文章,题目大概含义是《花了一千元写了一篇文章》。
他讲的是助理用 AI 干活的一天。早上 10:30 到下午 3:30,五个小时,账单 58 块——他说这也不贵啊,比实习生都合算。
下午 3:38,助理把一份两个半小时的访谈文稿扔进对话框,12 万字。文件三分钟就被否掉了,选题放弃。但 12 万字留在了上下文里。
接下来 8 个小时,每一次 AI 开口,都要把这 12 万字重读一遍。AI 每次说话的费用,从 0.36 块跳到了 10 块,涨了近 30 倍。
后半段账单:725 块。
这种事不只发生在傅盛的助理身上。
MacStories 主编 Federico Viticci 在自己博客里写过一句:"我玩 OpenClaw 玩太多了,Anthropic API 上一个月烧掉了 1.8 亿 token——yikes。"按现行 Sonnet 费率估算,这是接近 4,000 美金的账单。
Claude Code 用户里类似的故事更密集。有 Max 用户跑了个过夜 cron,因为环境变量没配对、绕过了订阅直接走 API,两天烧掉 1,800 美金;还有人因为一条 hook 递归没设上限,一夜烧掉 6,000 美金的信用额度;LangChain 社区里更夸张,有人的 agent 卡进死循环跑了 14,000 次冗余工具调用才被发现。
Medium 上一位叫 Baljeet 的工程师写了篇刷屏文章,题目就是《How I Cut My Claude Code Bill by 90%》——一个月的钱直接砍掉九成。
我自己呢?每天 50 到 80 美金,一个月稳定在 1,500–2,400 美金这个区间。
我是 AI 的重度用户。这种账单我已经习惯了——这是当下做这件事必须付的成本。但也正因为我每天都在烧这个钱,我比谁都清楚"账单"这件事在 AI 时代意味着什么。
它意味着:再聪明的 Agent,如果用不起,也就跟你没关系。
用得起的 Agent,才是好 Agent。
这是过去几个月我做 OpenClacky 的根本判断,也是这篇文章想跟你讲清楚的事。
确认"账单"这个问题之后,接下来的问题就是——同样的任务,不同 Agent 之间,账单到底差多少?
要回答这个问题,得先回答怎么测才公平。
我们内部花了一周时间反复研究。Agent 测评看着简单,实际上变量多得吓人:模型、prompt、网络、上下文、工具数量、API 路由……稍微没控好,数据就没意义。
最后我们定了一套控制方法:
claude-opus-4-7,这是当下能稳定打满测试的最强模型,也最容易暴露各家 Harness 的真实水平四个 Agent:OpenClacky / Claude Code / OpenClaw / Hermes,跑同样三个真实任务:
guizang-ppt-skillmarketing-psychologysocial-content刻意没选写代码——这一篇我想测的是通用 AI 助理,不是"AI 程序员"。这是更广大用户的真实使用场景:做方案、写 PPT、跑分析。
直接看结果。所有数字来自 OpenRouter 逐请求账单 CSV,不是我们自己日志,是第三方账单:
| OpenClacky | $5.10 | 51 | |
最贵和最便宜之间差 6 倍。同一个 prompt、同一个模型、同一个 skill,差距全在 Agent 自己身上。
为什么差 6 倍?benchmark 页上写得很直白:
单位 prompt 单价差不多。总花费差这么多,是因为 OpenClacky 用更少的请求数、更高的 cache 命中率完成了同款任务。
51 个请求 + 90.6% 命中率 → $5.10。Hermes 218 个请求 + 60.3% 命中率 → $30.14。
三个任务的单项数据也很有意思:
可以看到,OpenClacky 和 Claude Code 在三个任务上互有胜负,marketing-psychology 这一项 Claude Code 实际比我们更便宜——这一会儿讲到 Harness 工程的时候再说。
完整的产物对比、屏幕录像、逐请求 CSV、prompt 全文,全部都在 openclacky.com/benchmark,可复现。
数据出来后,我做的第一件事不是欢呼,是看跟 Claude Code 差多少。
Claude Code 在 Cache 命中率上(95.2%)确实比我们高(我们 90.6%),这是世界顶级的闭源 Harness。 Anthropic 自家做的,从底层就懂自己的模型,这件事必须先讲清楚。
另外它内部还有一个我们当时没有的能力——自动切换 Haiku 模型。在某些子任务上,Claude Code 会自动用更便宜的 Haiku 而不是 Opus,这让它的成本优势相对更明显。
那我们做到了什么?
我们的优势在 请求数 × 命中率 的乘积上更优——同款任务,OpenClacky 51 个请求,Claude Code 70 个请求,我们少跑了 27%。最终 $5.10 vs $5.49,总账单是同档的。
但更重要的是,我们是完全开源、可自托管、BYOK 的。Claude Code 强在闭源体系内的极致优化,我们强在用户能完全掌控自己的 Agent 内核——你想换模型、换 API、换部署方式、改 Harness 的某个细节,完全自由。
而且评测之后我们没停手。新的 1.0.1 版本在实际使用中已经做到接近 100% 的命中率——Cache 这一项,我们正在追上 Claude Code。
讲到这里顺便打个小广告:如果你使用 OpenClacky AI Keys 自托管方案,也可以享受子任务自动切便宜模型的特性,无须手工配置——这是我们对齐 Claude Code Haiku 切换的方式,但用的是 BYOK 的开放路线,你想切到 DeepSeek、GPT-5-nano、任何更便宜的模型,都可以。
那总账上,这些差距和优势是怎么来的?Harness 工程,我们核心做了 4 件事:
① Cache 设计——双重 cache 标记 + session context 机制,system prompt 永远不重建。还记得开头傅盛助理那 12 万字吗?Agent 每次说话都把它重读一遍,就是因为 cache 设计不对。Cache 命中率每差 10 个百分点,长会话的账单就差出几倍。这一项我们 1.0 做到 90.6%,1.0.1 已经接近 100%。
② 工具集精简——核心工具只有 16 个,把所有复杂能力外包给一个叫 invoke_skill 的元工具去调度。市面上一些 Agent 默认装 50+ 个工具,每一次模型调用,这些工具的描述都要塞进上下文里。工具越多,基础开销越高——这是我们请求数能压到 51 的核心原因。
③ Insert-then-Compress——上下文压缩这件事,常见做法是新开对话做压缩,但这样所有已建立的 cache 全部失效。我们把压缩指令插入到当前对话流里,在下一轮正常请求时顺带完成,cache 全程不掉。
④ BYOK + 子任务自由切换模型——主任务用 Opus,子任务可以切到 Haiku、DeepSeek、GPT-5-nano。你的 Key,你的钱包,你的取舍。
这 4 件事每一件背后都有一堆取舍——不是技术参数,是工程哲学。具体怎么实现的、为什么这么选、踩过哪些坑,这一篇里讲不完,我会单独再写一篇。
完整的 7 条核心工程决策,可以先看 OpenClacky 官网的技术内幕。
讲了这么多数字,最有说服力的方式还是你自己跑一次。
OpenClacky 1.0.1 已经发布,Mac / Windows / Linux 全平台支持,BYOK 接你自己的 OpenRouter / Anthropic / OpenAI Key,5 分钟装好就能跑。
跑完之后,看一眼你的 OpenRouter 账单——你会看到每一条请求的 cache 命中状态、token 消耗、单条成本。
如果你能跑出比 90.6% 更低的命中率,把日志发给我(公众号后台留言 / GitHub 提 issue 都行),我会逐条分析原因,帮你看是 prompt 设计、任务类型、还是 Harness 哪里没处理好。我们也会把这些 case 沉淀成下一版的优化方向。
挑战命中率,等你来。
下载地址:openclacky.com
GitHub:github.com/clacky-ai/openclacky
经常有人问我:你做 OpenClacky 的真实动机是什么?
我对 AI 时代的判断是这样的:接下来五年,会出现一波"个人专家把看家本领封装成 Skill 卖出去"的浪潮。
律师把企业合规咨询封装成 Skill,医生把分诊问诊封装成 Skill,资深 PM 把产品评审封装成 Skill,优秀的咨询师把方法论封装成 Skill——专业能力会以 Skill 的形态第一次被高频、可计价地分发。
但这个浪潮要起得来,有一个隐藏的前提条件:用户用得起。
如果一个 Skill 调用一次烧掉用户 30 美金,这个 Skill 卖不出去。如果用户每次咨询律师 Skill 都得付一笔比律师本人小时费还贵的 Token 账单,这个市场就建立不起来。
Skill 经济不是"有人愿意做 Skill"就能成的。它需要一个用户用得起、创作者信得过的受控 Agent 内核。
这就是 OpenClacky 这一年想做的事。先把 Agent 的内核做扎实——省得起 Token、跑得起长任务、撑得起复杂 Skill 调用——上层的 Skill 经济才有机会长出来。
地基先做好,房子才有得盖。
这一篇,我把"我们做到了什么"讲清楚了。
下一篇,我想讲讲"我们怎么做到的"——
《如何实现顶级 Harness 工程——中间的考究和取舍》
会展开:
如果你对这些感兴趣,关注一下公众号——下篇见。
我会继续做这件事。把账算清楚,然后让更多人用得起 AI。
文中傅盛案例引自其公众号文章《写这篇文章AI花了近一千元,猜猜它走了哪些冤枉路》;数据据原文截图。在此致谢。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-24
企业级智能体,必须长在自己的业务里
2026-05-24
Shopify 23,000 名工程师背后的 Claude Code 配置方案
2026-05-23
Harness Monitor:当多个 Agent 同时写代码时,如何看住质量
2026-05-23
从 Appshots 到 Goal Mode:Codex 正在变成工作流 Agent
2026-05-23
2小时烧掉9亿token后,我发现了OpenAI和Anthropic在/goal上的本质区别
2026-05-23
我在一天内完成10场用户访谈,领导大受震撼
2026-05-23
Codex 的 computer use 功能,为什么这么好用?
2026-05-22
我让3个AI吵了一整天架,它们把PRD写完了
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-03-17
2026-04-07
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07