Anthropic "开源"了一份 Agent Infra 创业的工具书

发布日期：2026-04-01 10:16:30 浏览次数： 2090

作者：硅基立场

微信搜一搜，关注“硅基立场”

这可能是 Anthropic 在工程能力上与外界最信息对称的一次。它对 Anthropic 的伤害不大，对创业者的启发不小。

2026年3月30日，Anthropic的工程师在发布npm包时犯了一个重复的错误：没在.npmignore 中排除 source map 文件。于是，57MB的cli.js.map 指向了R2存储桶，51.2万行 TypeScript 源代码，1906个未经混淆的源文件，在数小时内被镜像至 GitHub。它们被 fork 了数万次，永久扩散。

这不是官方开源，但效果等同。Claude Code四年工程迭代的家底，一夜之间成了公共财产。

喜欢动手但不太爱动脑子的 AI builder 都摩拳擦掌，希望复刻一个 Claude Code，这基本是痴心妄想。而对方兴未艾的 Agent Infra 赛道的创业者来说，这份被意外开源的代码库，则是一份工具书，一份创业指导白皮书。

它第一次让外界看清 Anthropic 的工程边界——做了什么，做到了什么程度；以及没做什么，为创业者留了哪些白。

Claude Code 还是被低估了

Claude Code 已经这么牛了。但泄露的代码告诉我们：它还是被低估了。

许多人认为 Claude Code 不过是“模型+提示词+工具调用”的轻量级包装，创业公司用几个月就能搭出 MVP，进军 AI 编程赛道。

这次代码泄露的一开始，很多开发者也跃跃欲试，意图复制一个 Claude Code。但很快，当他们仔细研究之后，发现泄露的代码是一剂清醒剂。

Claude Code不是 Claude 的 CLI 工具，而是 Anthropic 的 Agent 操作系统底座。这么说吧，Claude Code 不是 Anthropic Agent 底座衍生出来的编程产品，它就是底座本身，只是直接以产品化的方式对外公开了。

AI Coding as an Infrastructure。

这与绝大多数做 AI 编程的创业公司甚至大厂的逻辑已经完全不同了。

这次泄露的 Claude Code 源码，query.ts是核心查询循环，800多行的状态机，处理7种消息类型。其中，有三个工程细节，可以说明这个系统的真实重量。

其一，四层上下文压缩。呈递进机制，优先保持粒度，必要时才牺牲细节，而不是对话太长就截断——这是很多已经很能打的国产模型/Agent 仍然存在的疏漏。这说明长任务、长对话是 Anthropic 押注的核心场景：Agent要连续工作数小时甚至数天，上下文管理就是命门。

其二，流式工具并行执行。模型生成和工具调用真正并行，而不是排队。它优化的是 Agent 同时做很多事的吞吐量，而不是让人等得更短的响应速度。

其三，多模式运行与递归计费。代码中存在交互式、嵌入式、持久后台三种运行模式，嵌套调用有独立的成本追踪，计费精细到子调用级别。这是一个平台级的复杂度，一个工具本身做不出这种复杂度，它体现了 Anthropic 商业模式的精确度。

最近“Harness”概念大行其道，越来越普遍的共识是：Harness是“最薄的包装”，Anthropic自己也这么说。

但有没有可能，Anthropic 之前一直在忽悠开发者和创业者？直到这次代码被意外开源了？

泄露代码显示的是另一回事：数万行代码、数百个工程决策、复杂的状态机管理、完整的容错与恢复基础设施。

生产级的 Harness 是系统工程，是 Agent Infrastructure，不是一两个工具的组合。低估了这一点，与 Anthropic 比竞争壁垒，就是耗子给猫当三陪。

但这里并非没有创业者的机会。

两个战略信号

泄露的 Claude Code 代码中，散落着17个 Feature Flag——实验性功能开关。

其中大部分是产品探索，比如 BUDDY（电子宠物）、VOICE_MODE（语音交互）、BRIDGE_MODE（IDE桥接），它们方向各异，优先级不高。

但有两个代码泄露的战略信号不容忽视：

其一是 KAIROS。它是持久后台代理，藏在隐藏模式里，已部分被实现。这意味着 Anthropic 认为：Agent 的终局形态不是你坐在电脑前跟它对话——而是它在后台自主运行，你在不在场没关系，它干它的活。它不是交互工具，而是后台基础设施。它决定了整个 Harness 的设计方向：状态持久化、任务恢复、长时间运行的资源管理，全都是为“无人值守”准备的。

第二个是 PROACTIVE。即主动式 AI，它还在实验阶段。传统的 Agent 模式是人下指令，AI执行，即 Manus模式。而 PROACTIVE 要反过来：AI主动发起行动，人负责审批。这是交互范式的根本翻转。

如果说 KAIROS定义了 Agent“在哪里跑”，而PROACTIVE定义了 Agent“谁说了算”。

这两个方向叠加起来，是一幅清晰的图景：Agent 不等你说话，自己决定干什么，在后台持续执行，你只需要偶尔看一眼、批准或否决。

对创业者来说，这是一个时间窗口的信号。Anthropic 大抵是要沿着这个战略方向进化它的 Agent 的，但现在没有成型的产品。在Anthropic 发大招之前，创业公司在垂直领域——如零售、保险、财务等领域建立先发优势的窗口还开着。只不过，这个窗口以月为计算，得抓紧。

边界之外的创业机会

这份被泄露代码最大的价值，不是告诉你 Anthropic 有多强——这你本来就该知道。它的价值是第一次让你看清它的疆域——哪些是已经筑好的内核，哪些是尚未涉足的荒野。

已筑好的内核，不要碰，那不是创业公司轻易能做的。

你看，它的通用编排有 query.ts 的800行状态机撑着，基础工具接入被 MCP 协议标准化了，它的上下文压缩是四层工程护城河，而成本追踪精细到递归子调用。这些层级的工程深度已经极高。

在这些领域创业，等于正面撞 Anthropic 的操作系统底座，或者成为它的生态附庸，不，连附庸都当不上。

而 Anthropic 还没做的，是 Agent Infra 创业者的机会。

训练环境是确定性最高的方向（这也是之前林俊旸推文中预测的重要的创业赛道）。

泄露的代码中，taskBudget 与 maxTurns 是任务限制系统的雏形，但仅此而已，它们没有完善的沙箱，也没有专业的 rollout 基础设施。

那为什么 Anthropic 自己不做？因为它的核心利益在模型层，环境层不是它的优先级，就像英伟达不会自己去建数据中心一样。

而 Agentic RL 的最大瓶颈恰恰不是算法，是环境质量。专业RL沙箱、代码执行环境、浏览器模拟器。当下，在环境质量的领域创业是对的：模型能力刚过 Agent 可用的门槛，但训练的基础设施还停留在手工作坊阶段，供需错配最严重的窗口，就是现在。

垂直行业技能同样是重要的方向。

Claude Code 的 commands.ts 提供了通用的技能加载框架，但框架和行业知识是两层完全不同的工程。

Harvey 做法律 Agent，Abridge 做医疗 Agent，它们的壁垒不是调用能力，而是对行业工作流的深度理解：法律文书的引用格式、医疗记录的合规要求、金融模型的风控逻辑，这些东西不是通用框架能解决的。

还是那个问题，为什么 Anthropic 自己不做？显然组织能力不匹配。Anthropic 的工程师懂怎么写状态机，但不懂医疗合规流程，这种知识不是招几个行业顾问能补上的。而通用底座越成熟，垂直技能的价值反而越高。

这个创业赛道的本质，其实是垂直领域的 Agent，它的核心能力是把垂直商业领域的专业知识 Skills 化，可以成为独立的 Agent 公司，也可以把专业商业领域的数据层“打包”成 Skills，适配其它的 Agent。最近国内很多互联网 O2O 垂直领域的巨头似乎都在这么搞。

独立评估是另一个可行的创业方向。

泄露的 Claude Code 代码有 logEvent，Agent 每一步操作都会被记录在案，哪个工具被调用了、花了多少 token、执行结果是什么，全部写进日志。它像一个记录问题的小黑本。

但银行不会信任被审计方自己的工具做合规检查，医院也不会让 AI 自己评估自己的诊断质量。

第三方行为审计、跨模型成本归因、合规检查引擎：这些产品的价值不在技术难度，而在独立性和垂直领域的专业性本身。Agent 越自主，缰绳（Harness）的价格越贵，但缰绳不能由被驾驭者自己打造，必须由第三方掌握。

这个方向天然指向大客户、高客单价，商业模式适合独立上市，不适合被收购——因为被收购意味着失去独立性，而独立性恰恰是产品的全部价值。

中国本土的 Harness 生态，也是一个方向。

这是一个非常“中国特色”的创业方向。Anthropic 的工程架构与中国的 AI 生态无关，中国 Agent 创业公司与字节跳动、阿里巴巴的身位差距，远小于硅谷创业公司与 Anthropic 的差距——这意味着 Anthropic 做了的和没做的，中国创业者都有机会。

但“复制一个中国版 Claude Code”是没有意义的。

中国企业的工具链——飞书文档、钉钉审批、企微客户管理，跟美国 SaaS 生态在数据结构和工作流层面完全不同。这意味着在工具定义层，中国创业者需要重新设计，适配已有的工具和商业模式。最近飞书和钉钉都开放了自己的 CLI 给整个生态，是一个不错的启发和信号。

在豆包、Qwen 和 Kimi 之上构建本土 Harness层，集成中国原生的工具链，这是一个独立的生态工程。Anthropic 的手掌心覆盖不到，但也没有任何模板可抄。

这可能是 Anthropic 在工程能力上与外界最信息对称的一次。创业者第一次能看到 Agent操作系统底座的实际边界，不用猜测，不用推演。

但看到边界，和在边界之外建出东西，是两件完全不同的事。

它对 Anthropic 的伤害不大，对创业者的启发不小。天底下竟还有这等好事。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业