微信扫码
添加专属顾问
我要投稿
Anthropic最新研究揭示:减少对AI模型的约束,反而能激发其更强大的自主决策能力。核心内容: 1. 传统AI开发框架的四大束缚及其局限性 2. Anthropic提出的"松绑"理念与智能体新定义 3. 直接对比案例展示解放模型后的性能提升
openai 向左,anthropic 向右。
一个围绕应用,一个围绕Agent。
Anthropic官方视频:关于他们如何制作智能体的思考。
虽然在推广他们的SDK,但里面还是有不少思考
因为原文是播客 + 英文的形式,所以我做了一些整理和排版,方便阅读。
原址:https://www.youtube.com/watch?v=XuvKFsktX0Q&t=5s
在 AI 智能体开发领域,一个反直觉的现象正在发生:过去帮助模型的"脚手架",现在反而成了阻碍。》
当 Anthropic 团队发现一些客户升级到新模型后,性能提升并不明显时,他们深入调查发现了问题所在——不是模型不够强,而是开发者自己构建的约束框架,限制了模型智能的发挥。
这个发现引发了整个智能体开发理念的根本转变:从"如何约束模型"转向"如何解放模型"。
在 Anthropic 的定义中,智能体不是简单的自动化工作流,而是:
模型具有自主性,能够自己选择调用哪些工具、处理结果、决定下一步行动。
这个定义的关键在于"自主性"——不是开发者预定义路径,而是模型根据情况动态决策。
过去的问题:脚手架成为负担
早期开发者为了让模型"可控",会构建大量框架:
这在模型能力有限时是必要的,但随着模型智能提升,这些约束反而:
① 工作流束缚(思维层)
预定义 Claude 应该走的路径。
例如规定"先搜索 → 再分析 → 最后总结"这样的固定流程。
问题:路径过于僵化,模型无法根据实际情况灵活调整策略。当遇到特殊场景时,预设的流程可能完全不适用。
② 重框架束缚(工具层)
使用复杂笨重的 Agent 开发框架(如 LangChain)。
这类框架往往:
对比案例:
③ 脚手架束缚(实现层)
各种控制流程的辅助代码。
例如:手写工具输出解析逻辑、用 if-else 判断下一步执行什么、各种异常处理和重试机制。
问题:开发者以为是在"帮助"模型,实际上是在限制模型的自主决策能力。模型本身已经能处理这些逻辑,额外的脚手架反而添乱。
④ 过度规则束缚
设置了太多不必要的约束和规则。
问题:限制了 AI 的创造力,让它无法找到更优的解决方案。
现在的理念:工具而非框架
Brad Abrams(平台 PM 负责人)的核心观点:
“模型已经有很多能力,事实上即使是当前一代模型,里面的智能远比我们能够解锁的要多。如果你只是给模型它需要的工具,让它自由,让它能够以正确的方式使用这些工具,你就会得到很好的结果。”
Anthropic 推出服务器端 web search 工具后,一个有趣的现象出现了:
开发者只需要:
模型会自主:
整个过程几乎不需要额外的提示词或编排逻辑。
这揭示了一个深刻的转变:系统智能的应用点,从开发者的编排转向模型的自主决策。
对于刚开始构建智能体的开发者,Anthropic 强烈推荐 Claude Code SDK。
常见误解:“这不是编码工具吗?我不是在做编码应用。”
真实情况:Claude Code SDK 本质上是一个通用智能体 harness(循环运行时)。
当团队从中移除编码特定部分时,他们发现剩下的只是:
这些都是通用能力,可以解决各种各样的问题。
SDK 的核心价值:
问题:长运行的智能体任务可能产生大量工具调用,每个占用成百上千 tokens。
典型场景:一个研究任务可能触发 10-100 次工具调用,每次调用结果占用 100-1000 tokens,很快就会导致上下文窗口爆满,影响模型的专注度和性能。
解决方案:
① 智能删除旧工具调用
模型可以自主移除已经处理过的、不再需要的工具调用结果。
⚠️ 关键原则:只删除几轮之前已经完成决策的工具调用,千万不要删除刚调用的内容,否则模型会重复调用同一个工具。
② 墓碑标记(Tombstone)机制
删除工具调用时不是完全抹除,而是留下一个简短的"墓碑标记"。
例如:删除一次搜索工具调用后,留下注释:“这里曾调用过 Web Search 工具”
作用:
③ 保留最近工具调用
始终保留最近几次的工具调用结果,确保模型有足够信息做当前决策。
类比:就像整理桌面和笔记本——把旧资料归档(墓碑),保留最近的工作材料(最近调用),清理后可以更专注当前任务。
人类 vs 模型的本质差异:
显著提升 |
||
这就是问题所在:人类会越做越好,模型却在原地踏步。
记忆工具的突破:
让模型能够像人类一样"从经验中学习"。
工作机制:
技术实现:
效果:智能体能够持续学习,任务执行质量随时间提升,真正像人类员工一样从经验中成长。
模型可以:
Caitlin Lesse(工程负责人)的建议:
企业在选择智能体用例时,应该认真思考:
能够清晰阐明预期结果,有助于更好地定义智能体的范围。
回答:可以
Claude Code SDK 提供的是一个智能体循环运行时,可以部署到任何你需要的位置。
但 Anthropic 的野心不止于此——他们正在构建:
挑战:
解决方案: Anthropic 将可观测性作为平台重点方向,让企业能够:
这对于需要部署可信智能体的企业至关重要。
内部协同优势:
Caitlin 的观点:
“如果目标是帮助用户真正提升智能天花板,那么更高阶的抽象不仅仅是让它更容易,而是我们如何真正帮助你获得最好的结果。因为我们和研究在同一个房间,我们知道如何确保我们的抽象、我们的智能体循环将非常强大,非常擅长与 Claude 一起工作。”
Claude 开发者平台(前身 Anthropic API)的演变:
过去:简单的模型访问接口
现在:完整平台,包含:
验证:连 Claude Code 这样的内部产品都构建在公共平台之上。
Caitlin 描绘的愿景:
将三个要素结合起来:
这将形成一个自我改进的飞轮:
Brad 最兴奋的方向:
“如果我们在 Anthropic 雇用一个员工,但不给他们一台计算机,他们不会非常成功。现在基本上每个人都在使用没有计算机的 Claude。”
当前进展:
未来想象:
Anthropic 的智能体开发理念,核心是一个思维方式的转变:
过去:开发者是编排者
现在:开发者是赋能者
Alex Albert 在访谈开头的一句话,揭示了这个转变的深层原因:
“作为开发者,我的创造力在某个时候就结束了。我只能想到这么多用例,但模型,面对任何人带来的任何东西,都会找到方法去做那件事。”
当我们给模型足够的工具和自由,它能发现我们想不到的解决方案。
这就是"给模型松绑"的真正含义——不是放任不管,而是相信模型的智能,为其提供发挥能力所需的一切,然后让它自主决策。
随着模型能力持续提升,这个理念将变得越来越重要。智能体的未来,不是更重的框架,而是更轻的约束、更强的工具、更大的自由。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-07
少即是多:失败步骤比例才是思维链质量的关键
2025-10-07
OpenAI 刚刚发布了「AI 原生版」抖音,还有 Sora 2
2025-10-07
实测腾讯版Claude Code,能微信登陆,还能用GPT5、Claude4和Gemini 2.5 pro御三家
2025-10-07
OpenAI 开发者大会DevDay 2025发布了什么?
2025-10-07
大开放!OpenAI 开发者日 2025 S开幕主题演讲精要
2025-10-07
看完OpenAI发布会,我悟了:大模型公司正在谋杀AI创业公司
2025-10-07
一文读懂OpenAI DevDay:应用、Agent、代码三连击,勾勒AI商业帝国的统治蓝图
2025-10-07
OpenAI 年度发布会:Agent平台/Sora API/第三方接入ChatGPT/... 讲的没讲的,都在这了
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28
2025-09-27
2025-09-27
2025-09-25