2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

深入浅出Harness Engineerring之核心模式与理念

发布日期:2026-04-29 09:00:22 浏览次数: 1528
作者:腾讯云开发者

微信搜一搜,关注“腾讯云开发者”

推荐语

探索Harness Engineering的精髓,揭秘AI智能体高效运作的底层逻辑与设计哲学。

核心内容:
1. 持久化指令与分层记忆系统优化智能体交互
2. 工作流编排与权限管理的创新模式解析
3. 智能体基础设施的"宠物与牲畜"设计哲学

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



01



Claude Code

   1.1 持久化指令文件

没有这个文件时,每次对话都像从头开始,相同的规则和错误可能反复出现。

代价:文件需要随项目更新维护,否则可能误导智能体。


   1.2 作用域上下文组装


将指令按不同范围(如组织、项目)拆分,让智能体能动态加载最相关的规则。

代价:规则分散在多个文件,可读性变差,且不同范围规则可能冲突。


   1.3 分层记忆


将记忆分为三层:常驻的精华摘要、按需加载的细节、仅支持搜索的完整历史,以节省Token。

代价:实现更复杂。需设计信息如何分层、流动,并确保索引与实际数据同步。


   1.4 做梦整理


定期在后台对记忆进行去重、清理和重组,类似“垃圾回收”,以保持记忆整洁有效。

代价:整理本身消耗资源,且可能误删有用信息。


   1.5 渐进式上下文压缩


新的对话保留细节,稍旧的做轻量总结,更早的则压缩成简短摘要,适合长对话任务。

代价:压缩必有信息损失。后续需要细节时,智能体可能会“编造”。


   1.6 工作流与编排


这类模式核心是“分离”,通过拆解任务流程来提升复杂任务的处理质量和可控性。


探索-规划-行动循环

严格分为三步:只读探索、与用户对齐的规划、拥有写权限的执行,避免盲目操作。适用于不熟悉的代码库或复杂修改。

代价:流程更慢,小任务会显得“笨重”。


上下文隔离子智能体

为不同阶段(如调研、执行)创建拥有独立上下文和权限的子智能体,防止信息相互污染。适合长会话、多阶段任务。

代价需要额外协调信息传递,传多或传少都有问题。


分支-合并并行

将可并行的子任务分发给多个在独立环境中工作的子智能体,最后合并结果,以提升效率。

代价:合并更复杂,处理代码冲突的难度增加。


   1.7 工具与权限


这类模式关注如何安全、高效地管理智能体的能力。


渐进式工具扩展

开始时只提供最必要的工具,复杂工具按需动态加载,降低智能体的选择成本和出错概率。


命令风险分类

根据命令类型、参数和影响,自动评估其风险等级(安全、有风险、危险),并采取自动执行、请求确认或直接拦截等不同策略。


单用途工具设计

将常用操作(如读文件、搜索)封装为专用工具,而非依赖通用Shell命令,以提高可理解性、可审查性和权限控制粒度。


   1.8 自动化


确定性生命周钩子

在智能体生命周期的关键节点(如会话开始、工具调用后)自动触发预设动作(如代码格式化),由系统确保关键流程被执行,不依赖可能被模型遗忘的指令。





02



Claude Managed Agents

   2.1 宠物与牲畜基础设施哲学


  • Session(会话)是宠物:精心培育、持久保存、不可丢失。

  • Harness(控制器)和 Sandbox(沙盒)是牲畜:可以随时创建、销毁、替换。


   2.2 智能体三件套解耦


一个智能体由三个核心组件构成:

  1. Claude(大脑):负责推理和决策。

  2. Harness(双手):驱动运行循环,调用Claude API并将工具调用路由到执行环境。

  3. Sandbox(工作台):Claude在其中编写代码、编辑文件、运行命令的隔离环境。


Session:不可变的事件流

Session核心接口只有两个:记录事件(emitEvent())和读取事件(getEvents())。它是只追加的日志,天然支持重放和状态恢复,赋予智能体容错能力。


Harness:驱动循环

Harness是控制中心,它执行一个循环:从Session取上下文 → 调用Claude → 记录响应 → 如有工具调用则路由到Sandbox执行 → 记录结果 → 循环。Harness本身无状态,所有状态都在Session中,因此可随时替换或重启。


Sandbox:隔离的执行环境

每个Sandbox完全隔离,有自己的文件系统、进程和网络。关键特性是可隔离、可重建、可扩展。


核心安全设计:凭证永不进沙盒

采用保险库(vault) + 代理(proxy)架构:

所有第三方凭证存储在独立的保险库中,Harness和Sandbox都无法直接访问。

当需要调用外部工具时,通过代理从保险库按需获取凭证并执行请求。凭证始终不会暴露给Sand盒中的代码。


优势:遵循最小权限原则,所有外部调用可审计,凭证可统一轮换。


   2.3 多智能体协作模式



得益于三组件解耦,自然支持多种协作模式:

  • 多脑一手:多个Claude实例共享一个Sandbox。适用于多角度分析同一份代码(如安全审查+性能优化)。

  • 一脑多手:一个Claude实例控制多个Sandbox。适用于需在不同环境(如Python和Node.js)中同时执行任务。

  • 多脑多手:多个Claude实例各有自己的Sandbox,通过共享Session协调。适用于最复杂的多步骤任务。


   2.4 上下文工程:保持大脑专注



为管理长任务中的上下文窗口,引入多种技术:

  • 上下文压缩:当上下文窗口将满时,将早期对话压缩成总结,腾出空间。原始数据仍完整保留在Session中。

  • 记忆工具:让Claude能主动将重要信息写入持久存储,后续可主动检索,类似人类记笔记。

  • 上下文裁剪:在发送给Claude前,智能地裁剪不相关的上下文,只保留当前任务需要的部分。


三者协同,确保Claude始终获得最相关的上下文。


   2.5 性能优化:显著降低响应延迟



关键在于将大脑(推理)从容器(Sandbox)中解耦。解耦前,每次推理都需等待Sandbox容器完全启动。解耦后,编排层从Session日志拉取事件后,推理可立即开始,使得首Token延迟降低60-90%。




03



Hermes:会进化的智能体



   3.1 五段式循环


规划 → 执行 → 观察 → 学习 → 适应


   3.2 五层记忆架构



L1 短期记忆(便利贴):

当前对话的临时信息。


L2 技能手册(肌肉记忆):

完成复杂任务(如涉及5次以上工具调用)后,自动生成SKILL.md文件,记录完整的解决步骤,形成可复用的流程。


L3 知识库(语义记忆)

如何理解语义记忆?

简单讲就是利用向量存储这个技术,来实现模糊检索,原理是:即使字面不同,但语义相近的文本,其向量在数学空间中的位置也很接近。


举例查询进度报告技能:

“进度报告” vs “项目周报” → 相似度 0.92(很高!)

“进度报告” vs “预订机票” → 相似度 0.15(很低)

返回结果:返回最相关的技能:生成项目周报.md


L4 对你的了解(用户建模)

首先什么是黑格尔“辩证式”:

黑格尔“辩证式”就是AI内部在讨论:“我对用户的理解对吗?新证据说明了什么?怎么更新我的理解?”


越来越懂你的朋友:

不是一次判断就定终身,允许你改变、允许情况复杂,通过不断观察、思考、调整,越来越懂真实的你。

这就像最好的朋友:知道你“通常”怎样,但也理解你“有时”会例外


比喻:

  • 旧版本:“林总喜欢喝美式”

  • 新发现:今天林总点了拿铁

  • 冲突:旧版本 和 新证据矛盾

  • 解决方案:不直接覆盖成“喜欢拿铁”,而是升级:

    • “林总平时喝美式,但周三下午会换拿铁”


L5 工作日志(长期档案)

FTS5全文检索+LLM摘要:跨会话搜索历史对话,永久存储

  • LLM 摘要(写读书笔记):每次长谈后,AI 会自动用一两句话总结核心结论,写在笔记本的“摘要区”。

  • FTS5 全文检索(给笔记本加智能目录):AI 会给笔记本的每一页(包括详细对话和摘要)的所有关键词,自动生成一个超快的电子索


-End-
原创作者|张碧泉

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询