我把 AI 账单从 30 美金打到 5 美金

发布日期：2026-05-24 12:14:44 浏览次数： 1707

作者：技术达人李亚飞

微信搜一搜，关注“技术达人李亚飞”

一、AI Agent 的新问题:不是效果,是账单

过去一年,大家讨论 AI Agent 的话题主要还是"它到底能不能干活"。能写代码吗?能跑长任务吗?能自动调工具吗?

这一年下来,这些问题陆续都有了答案。能。Opus 4.7、GPT-5、Gemini 3,这一档强模型加上一个像样的 Agent 框架,大部分日常任务都能跑通。

效果不再是问题。新的问题是——账单。

前几天我刷到傅盛一篇文章,题目大概含义是《花了一千元写了一篇文章》。

他讲的是助理用 AI 干活的一天。早上 10:30 到下午 3:30,五个小时,账单 58 块——他说这也不贵啊,比实习生都合算。

下午 3:38,助理把一份两个半小时的访谈文稿扔进对话框,12 万字。文件三分钟就被否掉了,选题放弃。但 12 万字留在了上下文里。

接下来 8 个小时,每一次 AI 开口,都要把这 12 万字重读一遍。AI 每次说话的费用,从 0.36 块跳到了 10 块,涨了近 30 倍。

后半段账单:725 块。

这种事不只发生在傅盛的助理身上。

MacStories 主编 Federico Viticci 在自己博客里写过一句:"我玩 OpenClaw 玩太多了,Anthropic API 上一个月烧掉了 1.8 亿 token——yikes。"按现行 Sonnet 费率估算,这是接近 4,000 美金的账单。

Claude Code 用户里类似的故事更密集。有 Max 用户跑了个过夜 cron,因为环境变量没配对、绕过了订阅直接走 API,两天烧掉 1,800 美金;还有人因为一条 hook 递归没设上限,一夜烧掉 6,000 美金的信用额度;LangChain 社区里更夸张,有人的 agent 卡进死循环跑了 14,000 次冗余工具调用才被发现。

Medium 上一位叫 Baljeet 的工程师写了篇刷屏文章,题目就是《How I Cut My Claude Code Bill by 90%》——一个月的钱直接砍掉九成。
1778493909_sea

我自己呢?每天 50 到 80 美金,一个月稳定在 1,500–2,400 美金这个区间。
1778493916_yafei

我是 AI 的重度用户。这种账单我已经习惯了——这是当下做这件事必须付的成本。但也正因为我每天都在烧这个钱,我比谁都清楚"账单"这件事在 AI 时代意味着什么。

它意味着:再聪明的 Agent,如果用不起,也就跟你没关系。

用得起的 Agent,才是好 Agent。

这是过去几个月我做 OpenClacky 的根本判断,也是这篇文章想跟你讲清楚的事。

二、用一周时间,做了一次公平的测评

确认"账单"这个问题之后,接下来的问题就是——同样的任务,不同 Agent 之间,账单到底差多少?

要回答这个问题,得先回答怎么测才公平。

我们内部花了一周时间反复研究。Agent 测评看着简单,实际上变量多得吓人:模型、prompt、网络、上下文、工具数量、API 路由……稍微没控好,数据就没意义。

最后我们定了一套控制方法:

同一个 prompt
——每个 Agent 拿到的是同一份任务描述,逐字一致
同一个底层模型
——四家全部接 claude-opus-4-7,这是当下能稳定打满测试的最强模型,也最容易暴露各家 Harness 的真实水平
同一个 skill
——Agent 拿到的能力一致
独立 OpenRouter API Key
——每家用一个独立 Key,账单完全隔离,逐请求 CSV 可核
单次跑不复跑
——一次成绩就是一次成绩,不挑最好那次报上来
同一时间段完成
——避开模型路由波动

四个 Agent:OpenClacky / Claude Code / OpenClaw / Hermes,跑同样三个真实任务:

guizang-ppt-skill
——10 页横向翻页商务 PPT(单 HTML)
marketing-psychology
——AI 客服 SaaS 的营销方案
social-content
——B2B SaaS 竞品分析 + 一周社媒内容

刻意没选写代码——这一篇我想测的是通用 AI 助理,不是"AI 程序员"。这是更广大用户的真实使用场景:做方案、写 PPT、跑分析。

直接看结果。所有数字来自 OpenRouter 逐请求账单 CSV,不是我们自己日志,是第三方账单:

Agent	总成本	Cache 命中率	请求数
OpenClacky	$5.10	90.6%	51
Claude Code	$5.49	95.2%	70
OpenClaw	$15.70	88.7%	81
Hermes	$30.14	60.3%	218

最贵和最便宜之间差 6 倍。同一个 prompt、同一个模型、同一个 skill,差距全在 Agent 自己身上。

为什么差 6 倍?benchmark 页上写得很直白:

单位 prompt 单价差不多。总花费差这么多,是因为 OpenClacky 用更少的请求数、更高的 cache 命中率完成了同款任务。
51 个请求 + 90.6% 命中率 → $5.10。Hermes 218 个请求 + 60.3% 命中率 → $30.14。

三个任务的单项数据也很有意思:

任务	OpenClacky	Claude Code	OpenClaw	Hermes
guizang-ppt-skill	$1.23	$1.45	$5.07	$10.96
marketing-psychology	$1.72	$1.20	$7.47	$4.65
social-content	$2.14	$2.84	$3.15	$14.53

可以看到,OpenClacky 和 Claude Code 在三个任务上互有胜负,marketing-psychology 这一项 Claude Code 实际比我们更便宜——这一会儿讲到 Harness 工程的时候再说。

完整的产物对比、屏幕录像、逐请求 CSV、prompt 全文,全部都在 openclacky.com/benchmark,可复现。

三、Harness 工程的几个考虑——离 Claude Code 还有多远

数据出来后,我做的第一件事不是欢呼,是看跟 Claude Code 差多少。

Claude Code 在 Cache 命中率上(95.2%)确实比我们高(我们 90.6%),这是世界顶级的闭源 Harness。 Anthropic 自家做的,从底层就懂自己的模型,这件事必须先讲清楚。

另外它内部还有一个我们当时没有的能力——自动切换 Haiku 模型。在某些子任务上,Claude Code 会自动用更便宜的 Haiku 而不是 Opus,这让它的成本优势相对更明显。

那我们做到了什么?

我们的优势在 请求数 × 命中率 的乘积上更优——同款任务,OpenClacky 51 个请求,Claude Code 70 个请求,我们少跑了 27%。最终 $5.10 vs $5.49,总账单是同档的。

但更重要的是,我们是完全开源、可自托管、BYOK 的。Claude Code 强在闭源体系内的极致优化,我们强在用户能完全掌控自己的 Agent 内核——你想换模型、换 API、换部署方式、改 Harness 的某个细节,完全自由。

而且评测之后我们没停手。新的 1.0.1 版本在实际使用中已经做到接近 100% 的命中率——Cache 这一项,我们正在追上 Claude Code。

讲到这里顺便打个小广告:如果你使用 OpenClacky AI Keys 自托管方案,也可以享受子任务自动切便宜模型的特性,无须手工配置——这是我们对齐 Claude Code Haiku 切换的方式,但用的是 BYOK 的开放路线,你想切到 DeepSeek、GPT-5-nano、任何更便宜的模型,都可以。

那总账上,这些差距和优势是怎么来的?Harness 工程,我们核心做了 4 件事:

① Cache 设计——双重 cache 标记 + session context 机制,system prompt 永远不重建。还记得开头傅盛助理那 12 万字吗?Agent 每次说话都把它重读一遍,就是因为 cache 设计不对。Cache 命中率每差 10 个百分点,长会话的账单就差出几倍。这一项我们 1.0 做到 90.6%,1.0.1 已经接近 100%。

② 工具集精简——核心工具只有 16 个,把所有复杂能力外包给一个叫 invoke_skill 的元工具去调度。市面上一些 Agent 默认装 50+ 个工具,每一次模型调用,这些工具的描述都要塞进上下文里。工具越多,基础开销越高——这是我们请求数能压到 51 的核心原因。

③ Insert-then-Compress——上下文压缩这件事,常见做法是新开对话做压缩,但这样所有已建立的 cache 全部失效。我们把压缩指令插入到当前对话流里,在下一轮正常请求时顺带完成,cache 全程不掉。

④ BYOK + 子任务自由切换模型——主任务用 Opus,子任务可以切到 Haiku、DeepSeek、GPT-5-nano。你的 Key,你的钱包,你的取舍。

这 4 件事每一件背后都有一堆取舍——不是技术参数,是工程哲学。具体怎么实现的、为什么这么选、踩过哪些坑,这一篇里讲不完,我会单独再写一篇。

完整的 7 条核心工程决策,可以先看 OpenClacky 官网的技术内幕。

🎯 想亲自验证一下吗?——挑战 OpenClacky 的缓存命中率

讲了这么多数字,最有说服力的方式还是你自己跑一次。

OpenClacky 1.0.1 已经发布,Mac / Windows / Linux 全平台支持,BYOK 接你自己的 OpenRouter / Anthropic / OpenAI Key,5 分钟装好就能跑。

跑完之后,看一眼你的 OpenRouter 账单——你会看到每一条请求的 cache 命中状态、token 消耗、单条成本。

如果你能跑出比 90.6% 更低的命中率,把日志发给我(公众号后台留言 / GitHub 提 issue 都行),我会逐条分析原因,帮你看是 prompt 设计、任务类型、还是 Harness 哪里没处理好。我们也会把这些 case 沉淀成下一版的优化方向。

挑战命中率,等你来。

下载地址:openclacky.com

GitHub:github.com/clacky-ai/openclacky

四、为什么这件事重要——Skill 经济需要一个用得起的地基

经常有人问我:你做 OpenClacky 的真实动机是什么?

我对 AI 时代的判断是这样的:接下来五年,会出现一波"个人专家把看家本领封装成 Skill 卖出去"的浪潮。

律师把企业合规咨询封装成 Skill,医生把分诊问诊封装成 Skill,资深 PM 把产品评审封装成 Skill,优秀的咨询师把方法论封装成 Skill——专业能力会以 Skill 的形态第一次被高频、可计价地分发。

但这个浪潮要起得来,有一个隐藏的前提条件:用户用得起。

如果一个 Skill 调用一次烧掉用户 30 美金,这个 Skill 卖不出去。如果用户每次咨询律师 Skill 都得付一笔比律师本人小时费还贵的 Token 账单,这个市场就建立不起来。

Skill 经济不是"有人愿意做 Skill"就能成的。它需要一个用户用得起、创作者信得过的受控 Agent 内核。

这就是 OpenClacky 这一年想做的事。先把 Agent 的内核做扎实——省得起 Token、跑得起长任务、撑得起复杂 Skill 调用——上层的 Skill 经济才有机会长出来。

地基先做好,房子才有得盖。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业