免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

AgentSkills 揭示的真相:上下文工程走错了三年

发布日期:2026-01-28 06:27:19 浏览次数: 1511
作者:合理AI

微信搜一搜,关注“合理AI”

推荐语

颠覆认知:少给Agent喂数据,反而能提升性能!RAG的复杂工程可能走错了方向。

核心内容:
1. 动态上下文发现:让Agent自主探索文件系统比预先索引更高效
2. 工程实践案例:Claude Code和d0代理的成功验证了"少即是多"原则
3. 静态与动态上下文对比:后者在token成本、噪音控制和模型自主性上全面胜出

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

一个反直觉结论:你越少喂上下文,Agent 反而越能干。

RAG 很努力,但结果不稳定

很多公司做知识库问答(RAG)都是“拼命三郎”:

  • • 文档格式化
  • • 索引调参
  • • 检索融合
  • • 还要给模型加反思链

但最后呢?要么“找不到”,要么“胡编”。

所以我们换个脑回路:不去替模型管上下文,而是给它一个可探索的文件系统。
Agent 只拿一个最小起点,剩下的让它自己找。

换句话说:你负责把食材放进冰箱分门别类,Agent 自己决定做几菜一汤。

一、为什么 Claude Code 宁愿用 grep

先讲清楚背景:代码库动辄上万行,传统做法是“预先索引 + 向量检索”。但 Claude Code 在实践里更像一个“命令行老手”。
它用 glob/grep/find/tail 来定位文件,再逐步精读。

  • • 这样做的好处是:确定性强、可解释、成本低
  • • 坏处是:没有“看似聪明”的向量索引包装,但结果更稳。

相关原文:

结论很直接:文件系统 + Unix 命令 = 最高效的上下文导航原语。

二、少喂上下文,反而更准

动态上下文发现的核心很简单:
只给 Agent 一个干净的起点,剩下的按需加载。

它解决了三个老问题:

  • • token 不够
  • • 噪音太多
  • • 推理变“走神”

静态 vs 动态上下文

维度
静态上下文
动态上下文(文件系统)
输入方式
任务前一次性塞满
最小起点 + 按需加载
token 成本
噪音
可维护性
模型自主性

再补一个具体场景,很多团队都踩过:
你让 Agent 跑一次数据库迁移,终端输出 5000 行日志,前面 4999 行都是进度条,最后一行才是 ERROR。

  • • 如果你截断输出,关键错误就没了,Agent 只能“猜”。
  • • 如果你把输出写成文件,Agent 先 tail 看末尾,再按需定位,就能精准发现问题。

这就是“动态上下文发现”的真实工程价值,而不是一句口号。

工具输出很长
是否直接塞上下文?
窗口爆炸/关键信息丢失
写入文件
tail 先看末尾
信息足够?
直接决策
grep/扩大读取

三、工具越少越好:d0 的反常识结论

Vercel 的 d0 代理之前工具多到像杂货铺,结果成功率只有 80%。
他们最后删到只剩一个工具:执行任意 bash 命令,反而成功率从 80% 到 100%,步骤更少、token 更少。

原文链接:
https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools

“减法增益”是真的:
每多一个工具,你就替模型做一次选择。

四、Manus 的工程方法:上下文工程不是玄学

Manus 总结了一个非常硬核的生产指标:
KV-cache 命中率是生产阶段 AI 代理最重要的单一指标。

关键实践包括:

  • • 提示前缀稳定
  • • 上下文只追加
  • • 需要时设置缓存断点

还有一个很巧的设计:
遮蔽,而非移除。
动态移除工具会让缓存失效,改用 logits 掩蔽限制可选工具,更稳。

这里再举个“人话版”例子:
Manus 会在复杂任务中创建一个 todo.md,每完成一步就更新。它把目标不断复述到上下文末尾,避免“中间丢失”。
这不是可爱行为,而是注意力管理

原文链接:
https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

五、落地方法论:把“上下文”改成“文件”

以下是五个可落地实践:

  1. 1. 工具输出写文件,先 tail 看结论再展开
  2. 2. 对话历史写文件,摘要只做索引
  3. 3. Agent Skills 按需加载
  4. 4. MCP 工具只保留目录,说明书下沉文件夹
  5. 5. 终端输出写日志,Agent 自己 grep 定位错误

Agent Skills 为什么是热点?
因为它本质就是“文件化能力说明”,让模型按需加载技能,而不是你一次性塞满提示词。

你可以把它理解成“技能书书架”:

  • • 系统提示里只放目录
  • • 需要时用关键词或语义搜索找到对应技能
  • • 读到再用

这比把 50 本技能书一次性塞进模型脑子里更现实。

系统提示仅含技能目录
任务触发
关键词/语义搜索
定位 Skill 文件
按需读取
执行任务

六、什么时候不要全用文件系统

不是所有场景都适合“慢慢找”。

  • • 高时效任务
  • • 强确定性流程
  • • 需要严格 SLA 的系统

这些场景仍需要人为流程和工作流设计。
软件工程没有银弹,选对场景才是银弹。

七、工具选型:Agent Skills 从哪落地

如果你想把 Agent Skills 和文件系统上下文落地,有两个入口:

  • • Claude Agent SDK:内置工具、子代理、权限、会话
  • • Deep Agents:规划、子代理、文件系统工具、长记忆

它们都把“文件化上下文 + 按需发现”做成了开箱即用的能力。

参考链接:

  • • https://platform.claude.com/docs/en/agent-sdk/overview
  • • https://docs.langchain.com/oss/python/deepagents/overview

动态上下文发现怎么跑

给最小上下文起点
Agent 发现缺口
文件系统搜索
read/grep/tail
引入必要片段
继续推理/行动

静态上下文 vs 动态上下文

静态上下文: 一次性注入
窗口膨胀
噪音增多
推理失准
动态上下文: 最小起点
按需发现
仅引入必要片段
推理更稳

d0 结果对比

指标
复杂工具版
文件系统代理
变化
成功率
80%
100%
+20%
步骤
~12
~7
-42%
token
~102k
~61k
-37%
平均耗时
274.8s
77.4s
3.5x 更快

上下文不是喂进去的,是被发现的

真正有效的 Agent,不是“背得多”,而是“找得准”。
文件系统 + Agent Skills,正在把上下文工程从“人肉管理”变成“模型自探索”。

如果你也在做 Agent,建议从“少喂一点”开始。


参考原文链接

  • • https://mp.weixin.qq.com/s/Fa15GoM3_2CUnjdHQ3I7Nw
  • • https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools
  • • https://cursor.com/cn/blog/dynamic-context-discovery#
  • • https://v.douyin.com/VxYnWYFGaRw/
  • • https://v.douyin.com/u5IAHB7Cd84/
  • • https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
  • • https://platform.claude.com/docs/en/agent-sdk/overview
  • • https://docs.langchain.com/oss/python/deepagents/overview

💬 评论区聊聊

欢迎分享你在实际项目里遇到的“不知道怎么做”的问题。如果你已经用规划模式优化过 Agent,也欢迎晒晒效果数据,互相取经。

🔥 需要把这些思路落到你的业务里?

我们是成都艾维禾砺数字科技有限公司,长期做 AI 应用定制:

  • • 企业 AI 咨询:梳理工作流,找出值得做 Agent 改造的节点
  • • 定制化 AI 助手/客服/运营系统:从需求设计到上线监控一条龙
  • • AI 赋能培训:在你现有团队里落地 Agent 设计、RAG、MCP 等实战能力

如果想聊聊 Agent Skills、文件系统上下文、规划模式怎么结合在你的场景里发挥作用,可以:

  • • 访问官网 official.ivheli.com
  • • 或添加助理微信 xmaiyrjgzs(备注场景),约个时间深聊

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询