免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

PostHog关于Agent的8个核心经验

发布日期:2025-12-14 15:51:08 浏览次数: 1525
作者:YangyiGrow

微信搜一搜,关注“YangyiGrow”

推荐语

PostHog团队用一年时间从单一工具迭代出能自主完成复杂分析的AI Agent,分享8条实战经验助你避开Agent开发深坑。

核心内容:
1. 模型升级对Agent架构的颠覆性影响
2. 单一循环工作流相比图形化设计的显著优势
3. Agent模式切换与工具搜索的关键设计

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

2025 年,大家嘴里都在说「Agent」,但真正能在生产环境里、帮团队稳定做完活的 Agent,其实并不多。

PostHog 用了一整年,从一个只有「生成趋势图」单一工具的小玩具,迭代到了今天上线的 PostHog AI——一个真正在产品里「驻场」的智能分析师:

  • 它能自己写 SQL、跑多步分析
  • 会搭建 feature flag 和实验
  • 还能主动去排查高影响错误
  • 整个过程在一个循环里跑完,自己检查、自己修正

我们在这个过程中,踩了很多坑,也收获了不少确定性的经验。下面就是这一年里,我们关于 Agent 的 8 个核心学习,希望对你正在做或准备做 Agent 的团队,有点参考价值。


Image

01  模型升级是推土机:你以为改一点,其实会变一片

这一年里,唯一不变的事情就是:模型在疯狂进化

12 个月前,「推理模型(reasoning models)」还算是实验品;今天,如果没有强推理能力,Agent 基本做不了什么严肃活。

我们自己的两个重要分水岭是:

  • 用上了 OpenAI o4-mini 做性价比推理
     复杂查询、需要先探索再下结论的分析任务,明显变得更简单、更可靠。
  • 换到 Anthropic Claude 4 系列后,工具调用可靠性大幅提升
     Agent 终于可以放心开放一大堆工具,而不是「用一个挂一个」。

目前我们的核心 Agent 循环用的是 Claude Sonnet 4.5,在质量、速度和成本之间比较均衡——但我们也很清楚:这也会很快过时

👉 真正的教训是:
不要低估模型升级的影响面
 你以为只是「精度提升一点点」,实际上是整套架构、策略、prompt 和工具设计都要跟着重想一遍。

02  工作流输给 Agent:图再漂亮,也不如一个能自我纠偏的循环

在 GPT-4o 早期,我们和很多团队一样,最开始是迷恋「图形化工作流」的:

  • 画一张节点图:先 A 工具,再 B 工具,再 C 工具
  • 想象成一个完美的业务流程「蓝图」

但事实是:图是给人看的,不是给 LLM 干活用的


Image

在图式工作流里,LLM 有几个致命问题:

  • 很难自我纠错
  • 一旦丢上下文,就很难补回来
  • 实际用户问题永远偏离「理想流程」

后来,模型升级之后,我们把架构大幅简化成:

一个 单一循环(single loop) 的 Agent,不断在同一套对话上下文里:

  • 选择合适工具
  • 执行
  • 检查结果
  • 计划下一步

看起来结构「土」了一点,但它能持续工作几十步,边走边修正,真实完成复杂任务——这才是关键。


Image

很多人问图里那个奇怪的「switch mode tool」是什么?
 简单说,它是我们的 
「模式切换 / 工具搜索」能力,帮助 Agent 在 PostHog 庞大的产品面上,快速找到「现在最该用哪个工具」。这个细节之后会单独写一篇,我们就先卖个关子。

03  一个循环 > 一堆子 Agent:层层抽象,层层掉线

Agent 火了之后,大家很自然会想到「职能分工」:

CEO Agent → 派活给 Engineer Agent → Tester Agent 来验证 → PM Agent 提意见……

脑洞很大,现实却很骨感。

对 LLM 来说,最关键的资源是「上下文」:

  • 每多一层「角色」和「抽象」,上下文就丢一层
  • 工具调用之间的联系被切断,自我纠偏能力随之消失
  • 最后看上去结构很优雅,实际表现却很「蠢」

这并不是说子 Agent 完全没用——当你需要并行执行一些「相对独立的任务」时,它们是有价值的

但只要任务是强耦合、多步、需要频繁回头修正的,我们发现:

一个 LLM、一条消息链、一个循环,就够了。

Claude Code 的成功,某种程度上就是这个路线的最佳证明。

04  To-do 工具是隐藏大招:让 Agent「记得自己要干嘛」

前面说了这么多「单循环」,其实里面还有一个小秘密武器:todo_write 工具


Image

它本身非常简单:

  • 每一步操作结束,LLM 用这个工具写下接下来要做什么
  • 工具本身其实什么都不干,只是把「下一步计划」显式化

效果却非常夸张:

  • Agent 不再「走着走着就忘了最初的目标」
  • 出错后能自己回顾「我原本打算做什么」
  • 多步任务可以跑得非常长,且方向感更强

写 To-do 对 Agent 来说,就像以前的 chain-of-thought 一样,是一种「自我约束 + 自我提醒」的超级能力。

05  上下文是生命线:你的 Agent 也需要一份「CLAUDE.md」

现实世界里的任务,几乎都长这样:

「帮我看看 cfmp 转化漏斗哪里掉得最多?」

如果你不知道:

  • CFMP 是什么?
  • 它在这家公司的产品矩阵里是什么位置?
  • 用户大致路径长什么样?

这句话基本就是一堆拼错的字母。

我们发现,要让 Agent 执行真实任务,必须给它一个等价于 CLAUDE.md / PROJECT.md 的东西——一份持久、核心的上下文,永远挂在对话旁边:

  • 公司是做什么的
  • 主要产品线
  • 关键事件 / 指标 / 命名
  • 常见缩写和内部黑话

但问题也来了:
没人喜欢新工具上来就要求「写好几页配置文档」。

我们的做法是:

  • 借鉴 Claude Code,做了一个 /init 命令
  • Agent 会通过多步 Web 搜索(目前用的是 GPT-5-mini)自动去理解你的产品和业务
  • 如果你的数据里缺少公开 URL,再少量地问你几个关键问题
  • 最终生成一个项目级别的「记忆」,供后续所有任务使用

Image

更长远来看,我们认为:
上下文不只在 Web 上,也在你的 Slack、邮箱、文档和代码里。
这是一个已经有很多解决方案、但还远没被真正「解决干净」的问题,我们也在继续探索。

06  把每一步都摊开:黑盒再“准”,用户也会不放心

一开始,我们也尝试过「把细节藏起来」:

  • 不展示推理过程
  • 不展示失败的工具调用
  • 不展示调用参数,只给最终结果

用户反馈非常一致:

「看结果还不错,但就是有点不踏实,不知道它到底干了什么。」

后来我们反其道而行之:

  • 流式展示每一次工具调用、参数、返回结果
  • 连推理 token 也实时展示

Image

结果很有意思

只要用户能看到 Agent 在「纠错、反思、重试」,即便有时候多绕两步路,信任感也明显增加了

可以说,人和 LLM 在这点上很像:
一个完全不透明的黑盒,会让人下意识地不信任。
 而暴露细节,反而能让大家更愿意长期依赖它。

07  框架有时是阻力:在战场上,越底层越安全

我们从一开始的 OpenAI Python SDK,迁到了 LangChain + LangGraph。

如果是今天再做选择,我们大概率就不会这么做了。

原因有几个:

  • 你会被框架的「世界观」锁死。
    LangGraph 的抽象非常优雅,但当模型能力、产品需求快速变化时,你会发现很多「原本看起来合理的边界」变成了束缚,重构成本极高。
  • LLM 进化速度远大于框架更新速度。
     新模型、新能力(比如不同家的 Web search、tool calling 格式)一出来,抽象层很容易「崩」:
    • 想统一 OpenAI 和 Anthropic 的搜索结果格式?对框架来说是噩梦。
    • 你只想用某家模型的新特性,却发现框架还没跟上。
  • 生态太碎片,沉没成本太高。
     今天选了 A 框架,明天 B 出了个 killer feature,你要不要换?
     每一次切换,都是一笔不小的工程债。

当然,轻量封装还是有价值的,但我们的结论是:

在 Agent 这种快速演化的赛道上,
 尽量保持中立、低耦合,
 当成「就是在调用一个函数」来设计系统,会更安全。

08  Evals 重要,但远不够:真相藏在用户的真实使用里

很多人会说:「只要 eval 做得好,Agent 质量自然就上去了。」

我们同意 eval 很重要,尤其是对基础模型来说。
但在 
Agent 场景 下,情况要复杂得多:

  • 想要构造一个「足够真实」的多步任务环境,本身就是一个巨大工程
  • 你必须支持「所有 Agent 可能调用的工具」,才能真正评估表现
  • 大部分 eval 只能覆盖「你想到的 happy path」,而真实用户总会走你没想到的路

我们最后发现,比起「一上来就设计一堆 eval」,更有效的路径是:

  • 先把 Agent 真正放进生产环境
  • 设立固定的「Traces Hour」
    • 我们团队每周会拿出一段时间,只做一件事:
       逐条看真实用户的 LLM 调用轨迹(trace)
    • 找出哪些地方 Agent 工作得好,哪些地方明显「走歪」了
  • 再基于这些真实问题,反过来设计 eval
    • 把真实场景抽象出来,变成可回放、可对比的测试

这套方法带来的好处是:

工程投入都精准砸在「真用户真的在痛」的地方,
而不是停留在我们自己想象的 demo 上。

我们现在用 PostHog AI 在做什么?

在 PostHog 内部,我们已经用 PostHog AI 好几个月了。

 它不是完美的,但已经能稳稳接住很多原本要人肉做的事情:

  • 调试复杂 SQL
  • 看用户行为路径,找 drop-off、关键行为
  • 搭建实验、评估结果
  • 沿着 session 和 error 追查问题来源

真实世界的产品数据,其实就是一碗打结的面条

  • 事件串成会话
  • 会话分支到错误
  • 点击穿过多条路径……

PostHog AI 的价值,就是帮我们把这碗面条顺成一条可理解的「故事线」。

如果你已经在用 PostHog,可以这么试:

  • 打开 PostHog
  • 右上角点「PostHog AI」
  • 授权它访问数据(需要管理员权限)
  • 运行 /init,让它先了解你的业务
  • 然后,开始直接「派活」给它

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询