我要投稿

AgentSkills 揭示的真相：上下文工程走错了三年

发布日期：2026-01-28 06:27:19 浏览次数： 1771

作者：合理AI

微信搜一搜，关注“合理AI”

一个反直觉结论：你越少喂上下文，Agent 反而越能干。

RAG 很努力，但结果不稳定

很多公司做知识库问答（RAG）都是“拼命三郎”：

• 文档格式化
• 索引调参
• 检索融合
• 还要给模型加反思链

但最后呢？要么“找不到”，要么“胡编”。

所以我们换个脑回路：不去替模型管上下文，而是给它一个可探索的文件系统。
Agent 只拿一个最小起点，剩下的让它自己找。

换句话说：你负责把食材放进冰箱分门别类，Agent 自己决定做几菜一汤。

一、为什么 Claude Code 宁愿用 grep

先讲清楚背景：代码库动辄上万行，传统做法是“预先索引 + 向量检索”。但 Claude Code 在实践里更像一个“命令行老手”。
它用 glob/grep/find/tail 来定位文件，再逐步精读。

• 这样做的好处是：确定性强、可解释、成本低。
• 坏处是：没有“看似聪明”的向量索引包装，但结果更稳。

二、少喂上下文，反而更准

动态上下文发现的核心很简单：
只给 Agent 一个干净的起点，剩下的按需加载。

它解决了三个老问题：

• token 不够
• 噪音太多
• 推理变“走神”

静态 vs 动态上下文

维度	静态上下文	动态上下文（文件系统）
输入方式	任务前一次性塞满	最小起点 + 按需加载
token 成本	高	低
噪音	多	少
可维护性	低	高
模型自主性	弱	强

再补一个具体场景，很多团队都踩过：
你让 Agent 跑一次数据库迁移，终端输出 5000 行日志，前面 4999 行都是进度条，最后一行才是 ERROR。

• 如果你截断输出，关键错误就没了，Agent 只能“猜”。
• 如果你把输出写成文件，Agent 先 tail 看末尾，再按需定位，就能精准发现问题。

这就是“动态上下文发现”的真实工程价值，而不是一句口号。

三、工具越少越好：d0 的反常识结论

Vercel 的 d0 代理之前工具多到像杂货铺，结果成功率只有 80%。
他们最后删到只剩一个工具：执行任意 bash 命令，反而成功率从 80% 到 100%，步骤更少、token 更少。

原文链接：
https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools

“减法增益”是真的：
每多一个工具，你就替模型做一次选择。

四、Manus 的工程方法：上下文工程不是玄学

Manus 总结了一个非常硬核的生产指标：
KV-cache 命中率是生产阶段 AI 代理最重要的单一指标。

关键实践包括：

• 提示前缀稳定
• 上下文只追加
• 需要时设置缓存断点

还有一个很巧的设计：
遮蔽，而非移除。
动态移除工具会让缓存失效，改用 logits 掩蔽限制可选工具，更稳。

这里再举个“人话版”例子：
Manus 会在复杂任务中创建一个 todo.md，每完成一步就更新。它把目标不断复述到上下文末尾，避免“中间丢失”。
这不是可爱行为，而是注意力管理。

原文链接：
https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

五、落地方法论：把“上下文”改成“文件”

以下是五个可落地实践：

1. 工具输出写文件，先 tail 看结论再展开
2. 对话历史写文件，摘要只做索引
3. Agent Skills 按需加载
4. MCP 工具只保留目录，说明书下沉文件夹
5. 终端输出写日志，Agent 自己 grep 定位错误

Agent Skills 为什么是热点？
因为它本质就是“文件化能力说明”，让模型按需加载技能，而不是你一次性塞满提示词。

你可以把它理解成“技能书书架”：

• 系统提示里只放目录
• 需要时用关键词或语义搜索找到对应技能
• 读到再用

这比把 50 本技能书一次性塞进模型脑子里更现实。

六、什么时候不要全用文件系统

不是所有场景都适合“慢慢找”。

• 高时效任务
• 强确定性流程
• 需要严格 SLA 的系统

这些场景仍需要人为流程和工作流设计。
软件工程没有银弹，选对场景才是银弹。

七、工具选型：Agent Skills 从哪落地

如果你想把 Agent Skills 和文件系统上下文落地，有两个入口：

• Claude Agent SDK：内置工具、子代理、权限、会话
• Deep Agents：规划、子代理、文件系统工具、长记忆

它们都把“文件化上下文 + 按需发现”做成了开箱即用的能力。

参考链接：

• https://platform.claude.com/docs/en/agent-sdk/overview
• https://docs.langchain.com/oss/python/deepagents/overview

动态上下文发现怎么跑

静态上下文 vs 动态上下文

d0 结果对比

指标	复杂工具版	文件系统代理	变化
成功率	80%	100%	+20%
步骤	~12	~7	-42%
token	~102k	~61k	-37%
平均耗时	274.8s	77.4s	3.5x 更快

上下文不是喂进去的，是被发现的

真正有效的 Agent，不是“背得多”，而是“找得准”。
文件系统 + Agent Skills，正在把上下文工程从“人肉管理”变成“模型自探索”。

如果你也在做 Agent，建议从“少喂一点”开始。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-11

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

2026-03-10

从向量里逆向出原始文本和模型来源

2026-02-27

如何用 AI 做业务级 Code Review

2026-02-22

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

AIOps探索：做运维领域的RAG，如何做数据清洗

2026-02-21

Claude Code 每次都要重新探索代码？这个工具直接省下30%成本

2026-02-18

函数计算 AgentRun 重磅上线知识库功能，赋能智能体更“懂”你

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

从 RAG 到 Context：2025 年 RAG 技术年终总结

2025-12-18

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

企业RAG知识库系统中关于向量数据库的对比选型指南

2025-12-31

当 Claude Code 连接 NotebookLM，个人 AI 终于有了“长期记忆”

2026-01-06

Claude Code 外挂最强大脑 NotebookLM Skill

2025-12-29

大家都在问

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

2026-01-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw