Claude Code vs Codex vs Claw Code：三种Harness的实战对比

发布日期：2026-04-07 07:48:39 浏览次数： 2578

作者：硅基鹿鸣

微信搜一搜，关注“硅基鹿鸣”

这两个月我笔耕不辍，前前后后写了几十篇AI实战文章。没想到先后有两位出版社的策划编辑找上来，都想聊合作出书的事。

说实话挺意外的。

回头看了一下后台数据，我之前那篇Harness实战的文章被不少人转发分享。

Harness Engineering 实战：harness的最佳理解方式

我稍微调研了下，中文市场上确实没有一本系统讲Harness企业级实战的书。而且Claw Code的Rust版源码确实值得借鉴，它忠实还原了Claude Code的架构设计。

所以我做了一个决定：接下来一个半月，推出6-8篇Harness实战的系列文章。如果出版社合作谈得顺利，这些内容会整理成一本书。谈不成也没关系，最终会以完整的系列形式上架微信读书。

这篇是个引子。用同一个编码任务，分别丢给Claude Code、Codex和Claw Code三个Harness，观察下Harness架构本身的实战差异。

任务是这样的：Claw Code仓库里有一个CostTracker类，代码写好了但没被任何模块引用。我让三个Agent做同一件事，把它集成到Agent运行流程中，改三个文件，写测试，跑通现有用例。

三个Harness拿到的任务描述一模一样，都是同一份TASK.md。

先说Claude Code。

它的第一个动作是读CLAUDE.md，我专门为这个项目写的上下文文件。然后读TASK.md，接着自己去翻了三个源文件。

读完之后它发现已有测试里有个失败用例。我以为它会停下来问我怎么办。

它自己判断了一下，"这是pre-existing的，不影响我的任务"。继续干活。

改完cost_tracker.py之后，它开始改agent_runtime.py，把CostTracker的导入和调用插到了正确的位置。

写集成测试的时候出了个小插曲。mock了一个不存在的方法名，pytest报错。

它没有停下来等我指示，而是自己看了报错信息，说了一句"The method _build_tool_specs doesn't exist. Let me find the correct method name"，然后自己修了重跑。

改、测、错、分析、再改、再测。这个循环是自动的。

最终488个测试全部通过。改了4个文件，新增13个测试。零次人工介入。

说说Codex。

Codex拿到任务后，第一件事是用rg --files扫项目结构。有意思的是，我专门准备了AGENTS.md这个文件，它完全没读。直接从文件列表和TASK.md里拿信息就够了。

权限交互跟Claude Code不一样，Codex会有一个独特的沙箱权限的弹出提醒。

中间遇到了一个坑。pytest在沙箱环境里被Windows防火墙拦了。Codex自己绕过去了，换了一种方式直接跑指定测试文件。

最终78个测试全部通过，跑了7分钟左右。比Claude Code慢，但也是一轮搞定。

最后是Claw Code + DeepSeek。

这一轮用的是Claw Code的Rust版本，通过DeepSeek的Anthropic兼容协议接入。启动画面说实话挺唬人的，ASCII艺术的CLAW logo，彩色TUI界面，看着跟Claude Code的体验很像。

DeepSeek读完TASK.md后列了一个很清晰的四步计划，甚至识别了"第574行附近"这样的具体位置。到这里为止，我觉得有戏。

然后问题来了。它想用bash命令扫描文件。

bash: program not found.

Windows上找不到bash。它自己切了策略，改用内置的read_file直接读源码。

接下来读完agent_runtime.py之后，要改文件的时候，屏幕上弹出一行红色报错。

炸了。

它还试图继续，改了cost_tracker.py，说"现在我已经完成了步骤1，接下来是步骤2"。但上下文已经超限了，后面注定失败。

这里面最让我在意的，不是它失败了，是同样接DeepSeek，Claude Code就没这个问题。

为什么？

我去读了Claw Code的Rust源码。crates/api/src/providers/mod.rs第208行，有个model_token_limit函数。里面只注册了Claude和Grok两个系列。

_ => None,  // deepseek-chat走到这里，返回None

返回None之后，第227行的preflight预检函数直接跳过了。不认识这个模型，那就不检查了。

请求带着64000的max_output_tokens发出去。DeepSeek只有128K窗口，光输出就占了一半。加上几轮对话累积的上下文，直接超了。

API返回400，Claw Code把它当成普通错误终止了。没有尝试压缩上下文重试。

而Claude Code为什么没事？因为它在发请求之前就做了上下文预算管理，快到窗口限制时主动压缩。这套机制在Claw Code的源码里也有，conversation.rs的maybe_auto_compact函数。

架构完全一样。

就是模型注册表里少了几行配置，三道防线全部失效。

反观Qwen Code（阿里的开源CLI工具）的同一份功能，tokenLimits.ts里覆盖了十几家模型，DeepSeek、GLM、Kimi、MiniMax全在。

简单总结一下这次实验：

Claw Code翻译了Claude Code的架构。Prompt Cache边界、三层权限、条件式上下文注入、双重压缩机制，都在。

卡就卡在最后一公里的工程化上。

这也是我做这个系列的原因。后续文章会按这个节奏展开：

第二篇：Claw Code源码拆解。逐层拆Claw Code的Rust版架构，重点分析四个模块：权限门控、上下文发现、Prompt Cache边界设计、反应式压缩机制。这是后续所有实战的基础。

第三篇：国产模型接入实战。动手修复Claw Code的模型注册表和Provider接线，让DeepSeek和Qwen跑通同样的任务。把今天失败的Round 3变成成功。

第四篇：用Harness做遗留系统重构。选一个真实的开源项目，用Harness驱动Agent完成跨文件重构，全程记录约束设计、验证机制、回退策略。

后续还有：自动化测试生成、多Agent协作、成本控制与可观测性。每一篇都是从源码出发，在真实场景落地。

如果你对AI应用的底层实现感兴趣，对怎么让Agent从"能跑"变成"靠谱"这件事有需求，这个系列应该能帮到你。

当然你有特别关注的实战场景也欢迎随时联系我。

架构是骨架，细节是血肉。少了哪个，Agent都站不起来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-06

我拿到了微信Agent的灰测！！感觉又要被取代了

2026-07-06

循环工程：Karpathy方法——以及使其效率提升 5 倍的工作流程

2026-07-06

手机端 Agent 评测：从方法论到工程实践

2026-07-06

长上下文方案对比：一文讲清从 RAG、KV Cache 到百万上下文的工程取舍

2026-07-05

Hermes 的记忆层有 8 种实现，我为什么选了最反常识的那个

2026-07-05

Codex 负责人谈 AI 时代唯一值钱的能力

2026-07-05

复旦期末考「造反」了：51名学生联手围攻Claude、DeepSeek，谁能让AI交白卷谁就是学霸

2026-07-05

Loop Engineering 会是 AI 的下个关键词吗？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

可能是一份最详细的保姆级Codex教程，看完你就知道它为什么最近这么火

2026-05-19

GPT-Image-2 全量上线，中文顶到爆，50+ Case 生图实测

2026-04-22

GPT-5.5来了！我撤回了退订ChatGPT的决定

2026-04-24

GPT-5.5 发布，详细解读

2026-04-24

大家都在问

Loop Engineering 会是 AI 的下个关键词吗？

2026-07-05

微信AI，能避开豆包手机的窘境吗？

2026-06-30

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw