微信扫码
添加专属顾问
我要投稿
PostHog团队用一年时间从单一工具迭代出能自主完成复杂分析的AI Agent,分享8条实战经验助你避开Agent开发深坑。核心内容: 1. 模型升级对Agent架构的颠覆性影响 2. 单一循环工作流相比图形化设计的显著优势 3. Agent模式切换与工具搜索的关键设计
2025 年,大家嘴里都在说「Agent」,但真正能在生产环境里、帮团队稳定做完活的 Agent,其实并不多。
PostHog 用了一整年,从一个只有「生成趋势图」单一工具的小玩具,迭代到了今天上线的 PostHog AI——一个真正在产品里「驻场」的智能分析师:
我们在这个过程中,踩了很多坑,也收获了不少确定性的经验。下面就是这一年里,我们关于 Agent 的 8 个核心学习,希望对你正在做或准备做 Agent 的团队,有点参考价值。
这一年里,唯一不变的事情就是:模型在疯狂进化。
12 个月前,「推理模型(reasoning models)」还算是实验品;今天,如果没有强推理能力,Agent 基本做不了什么严肃活。
我们自己的两个重要分水岭是:
目前我们的核心 Agent 循环用的是 Claude Sonnet 4.5,在质量、速度和成本之间比较均衡——但我们也很清楚:这也会很快过时。
👉 真正的教训是:
不要低估模型升级的影响面。
你以为只是「精度提升一点点」,实际上是整套架构、策略、prompt 和工具设计都要跟着重想一遍。
在 GPT-4o 早期,我们和很多团队一样,最开始是迷恋「图形化工作流」的:
但事实是:图是给人看的,不是给 LLM 干活用的。
在图式工作流里,LLM 有几个致命问题:
后来,模型升级之后,我们把架构大幅简化成:
一个 单一循环(single loop) 的 Agent,不断在同一套对话上下文里:
看起来结构「土」了一点,但它能持续工作几十步,边走边修正,真实完成复杂任务——这才是关键。
很多人问图里那个奇怪的「switch mode tool」是什么?
简单说,它是我们的 「模式切换 / 工具搜索」能力,帮助 Agent 在 PostHog 庞大的产品面上,快速找到「现在最该用哪个工具」。这个细节之后会单独写一篇,我们就先卖个关子。
Agent 火了之后,大家很自然会想到「职能分工」:
CEO Agent → 派活给 Engineer Agent → Tester Agent 来验证 → PM Agent 提意见……
脑洞很大,现实却很骨感。
对 LLM 来说,最关键的资源是「上下文」:
这并不是说子 Agent 完全没用——当你需要并行执行一些「相对独立的任务」时,它们是有价值的。
但只要任务是强耦合、多步、需要频繁回头修正的,我们发现:
一个 LLM、一条消息链、一个循环,就够了。
Claude Code 的成功,某种程度上就是这个路线的最佳证明。
前面说了这么多「单循环」,其实里面还有一个小秘密武器:todo_write 工具。
它本身非常简单:
效果却非常夸张:
写 To-do 对 Agent 来说,就像以前的 chain-of-thought 一样,是一种「自我约束 + 自我提醒」的超级能力。
现实世界里的任务,几乎都长这样:
「帮我看看 cfmp 转化漏斗哪里掉得最多?」
如果你不知道:
这句话基本就是一堆拼错的字母。
我们发现,要让 Agent 执行真实任务,必须给它一个等价于 CLAUDE.md / PROJECT.md 的东西——一份持久、核心的上下文,永远挂在对话旁边:
但问题也来了:
没人喜欢新工具上来就要求「写好几页配置文档」。
我们的做法是:
更长远来看,我们认为:
上下文不只在 Web 上,也在你的 Slack、邮箱、文档和代码里。
这是一个已经有很多解决方案、但还远没被真正「解决干净」的问题,我们也在继续探索。
一开始,我们也尝试过「把细节藏起来」:
用户反馈非常一致:
「看结果还不错,但就是有点不踏实,不知道它到底干了什么。」
后来我们反其道而行之:
结果很有意思
只要用户能看到 Agent 在「纠错、反思、重试」,即便有时候多绕两步路,信任感也明显增加了。
可以说,人和 LLM 在这点上很像:
一个完全不透明的黑盒,会让人下意识地不信任。
而暴露细节,反而能让大家更愿意长期依赖它。
我们从一开始的 OpenAI Python SDK,迁到了 LangChain + LangGraph。
如果是今天再做选择,我们大概率就不会这么做了。
原因有几个:
当然,轻量封装还是有价值的,但我们的结论是:
在 Agent 这种快速演化的赛道上,
尽量保持中立、低耦合,
当成「就是在调用一个函数」来设计系统,会更安全。
很多人会说:「只要 eval 做得好,Agent 质量自然就上去了。」
我们同意 eval 很重要,尤其是对基础模型来说。
但在 Agent 场景 下,情况要复杂得多:
我们最后发现,比起「一上来就设计一堆 eval」,更有效的路径是:
这套方法带来的好处是:
工程投入都精准砸在「真用户真的在痛」的地方,
而不是停留在我们自己想象的 demo 上。
在 PostHog 内部,我们已经用 PostHog AI 好几个月了。
它不是完美的,但已经能稳稳接住很多原本要人肉做的事情:
真实世界的产品数据,其实就是一碗打结的面条:
PostHog AI 的价值,就是帮我们把这碗面条顺成一条可理解的「故事线」。
如果你已经在用 PostHog,可以这么试:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-14
Claude Skill深度分析:拖拉拽已死,Skill 当立
2025-12-14
AI原生数据库的思考
2025-12-14
Anthropic:别再构建智能体,开始构建技能
2025-12-14
Cursor 2.2 炸裂发布:首创 Debug 模式,专治各种“疑难杂症”!
2025-12-14
干掉同传?谷歌把AI同传放入所有耳机,顺手发了个颠覆性的AI浏览器
2025-12-14
从Palantir本体论,看驱动智能的下一代数据架构
2025-12-14
企业AI有繁荣,没泡沫|笔记
2025-12-14
巨头翻身!谷歌全新AI浏览器Disco问世,PC版灵光?
2025-09-19
2025-10-26
2025-10-02
2025-09-16
2025-09-17
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09
2025-12-08
2025-12-08
2025-12-03