我要投稿

Anthropic官方站台，颠覆认知：给模型"松绑"，它反而更听话

发布日期：2025-10-07 08:20:00 浏览次数： 1983

作者：AI产品自由

微信搜一搜，关注“AI产品自由”

openai 向左，anthropic 向右。

一个围绕应用，一个围绕Agent。

Anthropic官方视频：关于他们如何制作智能体的思考。

虽然在推广他们的SDK，但里面还是有不少思考

因为原文是播客 + 英文的形式，所以我做了一些整理和排版，方便阅读。

原址：https://www.youtube.com/watch?v=XuvKFsktX0Q&t=5s

开篇：智能体开发的关键转折

在 AI 智能体开发领域，一个反直觉的现象正在发生：过去帮助模型的"脚手架"，现在反而成了阻碍。》

当 Anthropic 团队发现一些客户升级到新模型后，性能提升并不明显时，他们深入调查发现了问题所在——不是模型不够强，而是开发者自己构建的约束框架，限制了模型智能的发挥。

这个发现引发了整个智能体开发理念的根本转变：从"如何约束模型"转向"如何解放模型"。

一、核心理念：给模型松绑

什么是真正的智能体？

在 Anthropic 的定义中，智能体不是简单的自动化工作流，而是：

模型具有自主性，能够自己选择调用哪些工具、处理结果、决定下一步行动。

这个定义的关键在于"自主性"——不是开发者预定义路径，而是模型根据情况动态决策。

为什么要"松绑"？

过去的问题：脚手架成为负担

早期开发者为了让模型"可控"，会构建大量框架：

• 预定义执行路径
• 设置各种护栏和边界
• 用复杂编排逻辑引导模型

这在模型能力有限时是必要的，但随着模型智能提升，这些约束反而：

• 阻碍模型发挥真实能力
• 限制模型发现新的解决方案
• 让新模型的提升无法体现

四种典型束缚及其问题

① 工作流束缚（思维层）

预定义 Claude 应该走的路径。

例如规定"先搜索 → 再分析 → 最后总结"这样的固定流程。

问题：路径过于僵化，模型无法根据实际情况灵活调整策略。当遇到特殊场景时，预设的流程可能完全不适用。

② 重框架束缚（工具层）

使用复杂笨重的 Agent 开发框架（如 LangChain）。

这类框架往往：

• 概念复杂：Chain、Agent、Memory、Tool 等大量抽象概念
• 代码量大：为了适配框架需要写大量配置代码
• 升级受限：模型变强了，但框架反而成为性能瓶颈

对比案例：

• LangChain 实现搜索：需要学习 Tool 概念 → 配置 Agent → 设置 Memory → 写一堆胶水代码
• Claude 直接实现：开启 Web Search 开关 → 一行搞定

③ 脚手架束缚（实现层）

各种控制流程的辅助代码。

例如：手写工具输出解析逻辑、用 if-else 判断下一步执行什么、各种异常处理和重试机制。

问题：开发者以为是在"帮助"模型，实际上是在限制模型的自主决策能力。模型本身已经能处理这些逻辑，额外的脚手架反而添乱。

④ 过度规则束缚

设置了太多不必要的约束和规则。

问题：限制了 AI 的创造力，让它无法找到更优的解决方案。

现在的理念：工具而非框架

Brad Abrams（平台 PM 负责人）的核心观点：

“模型已经有很多能力，事实上即使是当前一代模型，里面的智能远比我们能够解锁的要多。如果你只是给模型它需要的工具，让它自由，让它能够以正确的方式使用这些工具，你就会得到很好的结果。”

实践案例：Web Search

Anthropic 推出服务器端 web search 工具后，一个有趣的现象出现了：

开发者只需要：

• 打开 web search 开关
• 给模型一个研究任务

模型会自主：

• 决定搜索什么关键词
• 评估哪个搜索结果更相关
• 对有价值的链接进行 web fetch
• 基于获取的信息决定下一步搜索策略
• 完成深度研究任务

整个过程几乎不需要额外的提示词或编排逻辑。

这揭示了一个深刻的转变：系统智能的应用点，从开发者的编排转向模型的自主决策。

二、开发实践：如何开始构建智能体

推荐起点：Claude Code SDK

对于刚开始构建智能体的开发者，Anthropic 强烈推荐 Claude Code SDK。

常见误解：“这不是编码工具吗？我不是在做编码应用。”

真实情况：Claude Code SDK 本质上是一个通用智能体 harness（循环运行时）。

当团队从中移除编码特定部分时，他们发现剩下的只是：

• 一个智能体循环
• 访问文件系统的能力
• 一组 Linux 命令行工具
• 编写和执行代码的能力

这些都是通用能力，可以解决各种各样的问题。

SDK 的核心价值：

• 自动管理 prompt caching
• 处理工具调用循环
• 让开发者从更高的抽象层开始
• 避免每个人重复实现相同的基础设施

关键工具和功能

1. 上下文管理：整理模型的"桌面"

问题：长运行的智能体任务可能产生大量工具调用，每个占用成百上千 tokens。

典型场景：一个研究任务可能触发 10-100 次工具调用，每次调用结果占用 100-1000 tokens，很快就会导致上下文窗口爆满，影响模型的专注度和性能。

解决方案：

① 智能删除旧工具调用

模型可以自主移除已经处理过的、不再需要的工具调用结果。

⚠️ 关键原则：只删除几轮之前已经完成决策的工具调用，千万不要删除刚调用的内容，否则模型会重复调用同一个工具。

② 墓碑标记（Tombstone）机制

删除工具调用时不是完全抹除，而是留下一个简短的"墓碑标记"。

例如：删除一次搜索工具调用后，留下注释：“这里曾调用过 Web Search 工具”

作用：

• 告诉模型"这里曾经有什么"，避免完全失忆
• 防止模型重复调用已经用过的工具
• 保持上下文的连续性，同时大幅减少 token 占用

③ 保留最近工具调用

始终保留最近几次的工具调用结果，确保模型有足够信息做当前决策。

类比：就像整理桌面和笔记本——把旧资料归档（墓碑），保留最近的工作材料（最近调用），清理后可以更专注当前任务。

2. 智能体记忆：从经验中学习

人类 vs 模型的本质差异：

对比维度	人类	传统模型
第1次执行	基础表现	A级表现
第5次执行	显著提升 ✓	A级表现（几乎相同）
学习能力	从经验中成长	每次都是"新手"

这就是问题所在：人类会越做越好，模型却在原地踏步。

记忆工具的突破：

让模型能够像人类一样"从经验中学习"。

工作机制：

1. 执行中做笔记：模型在任务过程中主动记录经验

• “Wikipedia 的信息比较可靠”
• “应该优先使用数据库 A”
• “这个 API 调用方式更稳定”

2. 任务前读笔记：下次执行类似任务时，先查看历史笔记
3. 基于经验决策：根据过往积累的知识做出更优选择

技术实现：

• Anthropic 提供记忆工具 API
• 开发者决定存储位置（云存储、本地数据库等）
• 在控制权和便利性之间灵活平衡

效果：智能体能够持续学习，任务执行质量随时间提升，真正像人类员工一样从经验中成长。

3. Web Search & Fetch：自主研究能力

模型可以：

• 自主决定搜索策略
• 评估搜索结果质量
• 深度抓取相关内容
• 迭代优化研究路径

三、企业应用：业务价值与规模化

用例选择：超越技术思考

Caitlin Lesse（工程负责人）的建议：

企业在选择智能体用例时，应该认真思考：

• 业务价值是什么？
• 真的会节省这么多工程时间吗？
• 能消除多少手工工作？
• 期望的结果是什么？

能够清晰阐明预期结果，有助于更好地定义智能体的范围。

从原型到生产：SDK 可以规模化吗？

回答：可以

Claude Code SDK 提供的是一个智能体循环运行时，可以部署到任何你需要的位置。

但 Anthropic 的野心不止于此——他们正在构建：

• 更高阶的抽象，让企业开箱即用
• 规模化的可观测性工具
• 帮助企业真正"提升智能天花板"的平台能力

可观测性：长运行任务的关键

挑战：

• 智能体可能执行数十甚至上百次工具调用
• 如何确保它在做正确的事？
• 如何审计和调试？
• 如何优化提示词和工具配置？

解决方案： Anthropic 将可观测性作为平台重点方向，让企业能够：

• 追踪智能体的决策过程
• 审计自主行为
• 调整和优化性能

这对于需要部署可信智能体的企业至关重要。

四、平台优势：为什么用官方平台？

不只是"更方便"，而是"更强大"

内部协同优势：

• 平台团队与研究团队在同一屋檐下
• 确保抽象层最适配模型能力
• 每次模型发布，平台能力自动提升

Caitlin 的观点：

“如果目标是帮助用户真正提升智能天花板，那么更高阶的抽象不仅仅是让它更容易，而是我们如何真正帮助你获得最好的结果。因为我们和研究在同一个房间，我们知道如何确保我们的抽象、我们的智能体循环将非常强大，非常擅长与 Claude 一起工作。”

从 API 到完整生态系统

Claude 开发者平台（前身 Anthropic API）的演变：

过去：简单的模型访问接口

现在：完整平台，包含：

• Messages API
• Prompt Caching（提示词缓存）
• Batch API（批处理）
• Web Search & Fetch
• Code Execution（代码执行）
• Context Management（上下文管理）
• Agent Memory（智能体记忆）

验证：连 Claude Code 这样的内部产品都构建在公共平台之上。

五、未来展望：自我改进的飞轮

近期路线图

Caitlin 描绘的愿景：

将三个要素结合起来：

1. 更高阶的抽象 - 更简单地获得最佳结果
2. 可观测性 - 从长运行任务获得洞察
3. 记忆能力 - 从经验中学习

这将形成一个自我改进的飞轮：

• 智能体不只是完成任务
• 而是随着时间越做越好
• 持续优化自己的表现

长期愿景：给 Claude 一台计算机

Brad 最兴奋的方向：

“如果我们在 Anthropic 雇用一个员工，但不给他们一台计算机，他们不会非常成功。现在基本上每个人都在使用没有计算机的 Claude。”

当前进展：

• 代码执行工具：模型可以在 VM 上编写和执行代码
• 处理图像、分析 Excel、创建数据可视化

未来想象：

• 持久的计算环境
• 模型可以按需组织文件
• 按自己想要的方式设置工具
• 真正像一个有完整工作环境的员工

结语：从编排者到赋能者

Anthropic 的智能体开发理念，核心是一个思维方式的转变：

过去：开发者是编排者

• 设计执行路径
• 设置约束边界
• 用脚手架引导模型

现在：开发者是赋能者

• 提供工具而非框架
• 解放而非约束
• 让模型发挥真实智能

Alex Albert 在访谈开头的一句话，揭示了这个转变的深层原因：

“作为开发者，我的创造力在某个时候就结束了。我只能想到这么多用例，但模型，面对任何人带来的任何东西，都会找到方法去做那件事。”

当我们给模型足够的工具和自由，它能发现我们想不到的解决方案。

这就是"给模型松绑"的真正含义——不是放任不管，而是相信模型的智能，为其提供发挥能力所需的一切，然后让它自主决策。

随着模型能力持续提升，这个理念将变得越来越重要。智能体的未来，不是更重的框架，而是更轻的约束、更强的工具、更大的自由。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业