免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

从 OpenClaw 到 Pi:一个极简 Agent 的设计哲学

发布日期:2026-02-14 07:52:53 浏览次数: 1522
作者:不测之舟

微信搜一搜,关注“不测之舟”

推荐语

探索极简主义在AI代理设计中的独特魅力,Pi以四个核心工具挑战行业常规。

核心内容:
1. Pi代理的极简设计哲学与行业对比
2. 默认无权限检查的激进安全理念解析
3. 极简主义带来的效率优势与用户责任转移

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

从 OpenClaw 到 Pi:一个极简 Agent 的设计哲学

最近在研究 OpenClaw 的架构时,我发现它的核心引擎叫 Pi,作者是 Mario Zechner。顺藤摸瓜,我读了一堆相关的文章,包括 Mario 自己的博客,还有 Armin Ronacher(Flask 作者)写的一篇介绍。这些材料拼凑出了一个有趣的故事:关于极简主义、工具设计和 agent 应该长什么样的实验。

Pi 是什么

Pi 是一个极简的 coding agent。它只有四个工具:Read, Write, Edit, Bash。系统 prompt 不到 1000 tokens。

这个数字放在当前的 agent 生态里显得有些另类。Claude Code 的系统 prompt 有几千 tokens。Playwright MCP 定义了 21 个 tools,光是工具描述就要消耗 13.7k tokens。Chrome DevTools MCP 更夸张,26 个 tools,18k tokens。而 Pi 的四个工具加起来只有几百 tokens。差距接近两个数量级。

Mario 在他的博客 What I learned building an opinionated and minimal coding agent[1] 里写道:

"My philosophy in all of this was: if I don't need it, it won't be built."

这种极简主义贯穿了 Pi 的整个设计。当大多数 agent 框架在不断添加新功能时,Pi 选择了相反的方向:剥离一切非必要的东西,只留下最核心的能力。

核心设计决策

YOLO by default

Pi 默认没有权限检查,没有安全提示。每次执行命令前不会弹出确认框问你"确定要运行这个吗?"。Mario 的观点很直接:这些安全措施是 "security theater"。听起来有些激进,但他的逻辑很清晰。一旦 agent 能写代码和运行代码,它就可以做任何事情。你给它加一个权限检查?它可以写一段代码来绕过这个检查。你限制它不能删除文件?它可以写一个脚本来删除文件,然后执行这个脚本。限制它不能访问网络?它可以用 curl 命令。

这就是所谓的 "game over" 状态:一旦你给了 agent 执行任意代码的能力,任何在此之上的限制都只是形式。这些限制或许能阻止意外操作,但无法阻止一个"有意图"的 agent。假装有安全边界反而会给用户一种虚假的安全感。

承认这个现实反而是一种务实。与其花精力设计复杂的权限系统,Pi 选择了透明:你知道它能做什么,你需要自己判断什么时候该介入。这把责任放回了用户手里,同时也减少了不必要的摩擦。

No MCP

MCP(Model Context Protocol)是 Anthropic 推出的一套标准,用于定义 agent 和工具之间的通信协议。很多工具都实现了 MCP 接口。但 Pi 没有使用 MCP。

原因很简单:MCP 消耗太多 context。前面提到的数字值得再看一遍。Playwright MCP 的 21 个 tools 要消耗 13.7k tokens,Chrome DevTools MCP 的 26 个 tools 消耗 18k tokens。即使只用其中几个工具,光是工具定义就要占用大量的 context window。

Context window 是有限的资源。目前主流模型的 context window 从 128k 到 200k tokens 不等,听起来很大,但实际使用时会发现远远不够。代码文件、对话历史、错误信息、执行结果,这些都需要放进 context。如果工具定义就占了 10% 甚至 20%,留给实际工作的空间就被挤压了。

Mario 在 MCP vs CLI: Benchmarking Tools for Coding Agents[2] 里做了一个实验。他跑了 120 次测试,比较 MCP 和 CLI 两种方式的性能。结论是:两者差不多。MCP 没有带来显著的性能提升。

他在另一篇文章 What if you don't need MCP at all?[3] 里写道:

"Maybe instead of arguing about MCP vs CLI, we should start building better tools. The protocol is just plumbing."

协议只是管道,关键在于工具本身的设计质量。一个设计良好的 CLI 工具和一个设计良好的 MCP 工具效果差不多。既然如此,为什么要为协议付出额外的 context 代价?

这引出了一个更大的问题:context 的控制权。现在很多 coding agent 产品,比如 Cursor,作为中间商存在于用户和 LLM 之间。为了控制成本,这些产品会裁剪 context,决定哪些内容发给模型,哪些不发。用户并不知道 context 里到底有什么,也无法控制 agent 看到了什么信息。

Mario 对此有些不满。他在博客里写道:

"Twitter is full of context engineering posts and blogs, but I feel like none of the harnesses we currently have actually let you do context engineering. pi is my attempt to build myself a tool where I'm in control as much as possible."

Pi 试图把这个控制权还给用户。你可以精确地知道 context 里有什么,可以决定加载哪些文件,可以看到完整的对话历史。这种透明性是很多商业产品不具备的。

No plan mode, No sub-agents

Pi 没有内置的 plan mode,也没有 sub-agents。这两个功能在其他 agent 框架里很常见:plan mode 让 agent 先制定计划再执行,sub-agents 让主 agent 可以派发任务给子 agent。

Mario 认为这些功能都可以用更简单的方式解决。想要 plan?通过语言自然的交流而不是强硬的限制模型的输出结构会更好。想要并行任务?用 tmux 开多个终端。LLM 本身就擅长写代码和运行命令,何必在上面再叠加复杂的抽象层。

这个思路在他的文章 Prompts are code, .json/.md files are state[4] 里有更详细的阐述。核心观点是:把状态写到文件里,比用内置的状态管理更好。

文件有几个天然的优势。首先是持久化,agent 重启后状态还在。其次是可读性,人类可以直接打开文件查看和编辑。第三是灵活性,session 可以从任何一个点恢复,你可以回到之前的状态重新开始。结构化数据用 JSON,非结构化数据用 Markdown,这些都是通用格式,不需要特殊的工具就能处理。

这种方法把状态管理变成了一个更通用的问题。你不需要学习专门的语法,不需要理解框架的内部机制。文件就是状态,命令行就是交互界面。简单,透明,可控。

Agents Built for Agents Building Agents

这是 Armin Ronacher 在他的文章 Pi: The Minimal Agent Within OpenClaw[5] 里提到的一个核心概念。Pi 的架构有一个非常有意思的特性:agent 写完代码立刻生效,无需重启。这种热重载机制让 OpenClaw 可以仅通过对话就完成对自身功能的修改,完全绕过命令行操作。Armin 用了一个描述,叫做 "malleable like clay"。

这意味着如果你想让 agent 做一件它目前不会做的事情,你不需要去找一个插件或者下载一个 skill。你可以直接告诉 agent 你想要什么,让它自己写代码来实现这个功能。因为代码热重载,写完就能用。当然,这也包括很大一部分配置文件的热更新,这些甚至不需要通过代码实现。

Armin 同时写到,Pi 的很多扩展功能其实都是 agent 自己写的,他只需要描述需求,agent 就会实现功能。软件在构建软件:

"The point of it mostly is that none of this was written by me, it was created by the agent to my specifications."

这让我想到 Demis Hassabis 曾经表达过的一个观点:我们应该专注在解决智能这件事上,然后用智能解决所有其他的事情。Pi 的设计哲学与此有某种共振。Demis 说的是先解决智能,再用智能解决一切问题;Pi 做的是让 agent 具备扩展自身的能力,再用 agent 构建更多功能。两者都在处理同一个 meta 层面的问题:与其逐个解决具体问题,不如先拥有一个能解决问题的通用工具。智能本身,或者说 agent 本身,成为了一种 meta tool。

两种风格

读这些文章时,我注意到两种截然不同的风格。Mario 很 grounded,务实,注重软件质量。他会跑 120 次测试来验证一个假设,会仔细考虑 token 消耗,会写详细的基准测试报告。他的文章里充满了数据和实验细节。这是工程师的风格:提出假设,设计实验,收集数据,得出结论。

而 Peter(OpenClaw 的作者)在 X 上形容自己的风格是 "sci-fi with a touch of madness"。OpenClaw 的产品形态更加激进,想象力更丰富,也更愿意尝试一些看起来有点疯狂的想法。

但他们共享同一个核心理念。Armin 这样描述:

"Mario is very grounded. Despite the differences in approach, both OpenClaw and Pi follow the same idea: LLMs are really good at writing and running code, so embrace this."

LLM 擅长写代码和运行代码,那就充分利用这一点。这个简单的观察构成了整个设计哲学的基础。

引用链接

[1] What I learned building an opinionated and minimal coding agent: https://mariozechner.at/posts/2025-11-30-pi-coding-agent/
[2] MCP vs CLI: Benchmarking Tools for Coding Agents: https://mariozechner.at/posts/2025-08-15-mcp-vs-cli/
[3] What if you don't need MCP at all?: https://mariozechner.at/posts/2025-11-02-what-if-you-dont-need-mcp/
[4] Prompts are code, .json/.md files are state: https://mariozechner.at/posts/2025-06-02-prompts-are-code/
[5] Pi: The Minimal Agent Within OpenClaw: https://lucumr.pocoo.org/2026/1/31/pi/

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询