微信扫码
添加专属顾问
我要投稿
想了解如何让AI真正可靠地工作?前产品经理、现AI开发者姬阁阁,通过Book2Skills项目,为你完整拆解Harness Engineering从理念到落地的实战经验。核心内容:1. AI Agent时代为何需要“驾驭工程”2. 构建Harness系统的四个关键步骤3. 打磨Skill过程中的试错与思考
在 AI Agent 爆发的 2026 年,“Harness Engineering”(驾驭工程)成为开发者社区的热词。什么是 Harness Engineering?它如何在实际项目中运作?硅基流动「开发者说」访谈了前产品经理、现 AI 开发者姬阁阁(网名产品二姐),通过一个名为 Book2Skills 的实际项目,分享了她对 Harness Engineering 从模糊到清晰、从理念到实践的完整探索。
作为一位深耕 AI 领域的创业者与实践者,她不仅详细拆解了构建 Harness 的四个关键步骤,更坦诚地分享了打磨 Skill 过程中的试错与思考。这是一次接地气的经验复盘:关于如何让 AI 真正可靠地工作,关于技术如何服务于真实的商业场景。以下是她的讲述。
最近新模型纷纷发布,模型介绍里几乎都能看到 Agentic、Coding 这些关键词,以及对 OpenClaw、Hermes Agent 的支持。这些都在传递一个信号:AI Agent 已成为行业共识。这也解释了为什么 Harness Engineering 这个概念会在这个阶段引发共鸣:它体现了我们对 AI 能力的信任,AI Agent 正在真正走向生产环境,真的在落地了。
前段时间大家都在聊 Harness Engineering,不过我有一个略显保守的判断:真正在项目里把这套理念和机制运作起来,至少需要一年。
我第一次看到这个概念时,有一种“既模糊又精准”的矛盾感。模糊是因为这个词听起来挺抽象,精准感来自于它恰好描述了我一直在实践、一直在思考的内容,只是之前一直找不到一个合适的词来概括。
这几年我一直在 Vibe Coding,随着模型迭代、工具框架进化,用 AI 写代码的体验也在不断改变。但这些探索的核心方向始终是:让 AI 能够持续、稳定、高质量地写好代码。比如同类问题需要反复修改,之前要在对话框里一次一次地聊,是不是有什么办法让 AI 一次就记住?再比如,AI 执行过程中遇到新问题不知道怎么解决,它就停摆了,怎么让它能自主应对?对于这些问题,在不同阶段探索过不同的解法,比如 Prompt + Workflow,上下文工程等。积累到现在我才理解,这一套方法其实就是 Harness Engineering。
Harness Engineering(驾驭工程),本质是在构建一个让 AI 能长时间且可靠执行的系统,目前主要应用在代码中,但实际上是可以应用在任何长任务的执行中。文档、标准、约束、反馈循环、自我迭代等等,这些都是 Harness 的组成部分。
正好有个一直想做的事情,我决定结合自己对 Harness Engineering 的理解实践起来,于是就有了这个项目:Book2Skills。
这个项目的目标很简单:给 AI 一本书,它就能自动提炼核心方法论,生成一个可执行的 Skill,并开源发布到 GitHub 上,用户可以看到一个网页。我希望这个项目可以 7×24 小时无人值守地运行,我只需要偶尔看看,整个网站的内容完全是 AI 自己来做。
目前这个项目的效果肯定没有 100% 达到我的期待,但也基本满意了。而拿到这个结果的过程,就是 Harness Engineering 最核心的地方。我用四个步骤构建了这个 Harness,花了差不多两天时间。
至此,Book2Skills 这个项目中生产 Skill 的过程就完成了初步的 Harness 化。项目虽然比较小,但已经可以看到做好 Harness 的性价比很高。比如我一次性选 10 本书,它自己还会启动并行处理,给了我一点小惊喜。
经过这个小项目,我验证了启动 Harness Engineering 其实没那么难,但真正做好也并不容易,我觉得有以下三个关键点可以重点分享。
让 AI 能够自主干活,和 AI 对齐就是必选项,而文档是我实践下来性价比最高的对齐方式。一个好的 Harness 环境包含各种各样的文档:Architecture(项目结构是什么?提供项目地图)、Execution Plan(发现哪些问题需要做)、Technical Debt(技术债务清单)、Backlog(影响业务的功能哪些不完善)等。这些文档相当于给 AI 提供了一个项目地图,遇到什么问题,AI 就先来这里找,然后 route 到对应的文档里面去读。说得夸张一点,文档是后续一切的基础。
不知道你是不是也有过类似经历:项目刚开始,AI 执行得很好,但是时间一长,当项目变复杂,AI 能力有时候会变差。出现这种情况,大概率还是上下文记忆爆炸导致的。我现在的做法是,设计一个机制让 AI 自己来解决这个问题:当上下文快满时,就把这一次对话里生成的所有东西都写一个过渡性文档和摘要,交接出去。也就是让 AI 自主发起一个 Session 转换,写一个 progress.md,然后重新开始一个新的对话。
这是 Harness Engineering 的核心,也是最难的部分。简单来说,流程是这样的:Generator 创建内容(比如生成一个网页)→ Evaluator 评估质量,对照设计标准提意见 → Re-generator 基于反馈改进。我们看 Anthropic 给的一个为博物馆做官网的案例里,最初版本和经过 10 次自我迭代后的版本完全不一样,没有迭代就没有最后的结果。
谁能更好地实现这个自我迭代的机制,谁就能把 Harness Engineering 做得更好,谁的 Agent 就能更好地干活儿。一方面,让 AI 能无人值守地长期运行,从几小时到几天到更长时间;另一方面,让 AI 不仅能干活,还能自己学会干得更好。这才是 Harness Engineering 的魅力所在。这种活的、自我进化的 Harness Engineering 实现出来并不容易,这也是为什么我说真正落地至少要一年,还得是在有非常先进认知的人手里才能更快、更好地实现。
Harness Engineering 是一套动作组合,但在我的实践中,我有一个直观感受:高质量且持续优化的 Skill 是保证 Harness 效果好的关键。把 Skill 做好,Harness 这件事就做好了大半。
之前有段时间我觉得 Skill 就是一堆 Markdown 文件,结合 Harness 理念实践下来,我认为 Skill 的“自我进化”才是关键:可以极其方便地并行迁移、自我迭代。
现在是 Skill 爆发的阶段,每天都有大量的 Skill 被创造出来,但对自己真正好用的 Skill 很多时候还是得亲自打磨,并不能拿来即用。Skill 的增长飞快,但打磨空间也无限大。
还是结合 Book2Skills 这个项目里我打磨 Skill 的经历,分享几条关于 Skill 的思考。
说了这么怎么打磨 Skill,还有一个话题值得聊聊:写 Skill 不是目的,解决问题才是。这是最近几年我服务客户过程中经常思考的一个问题,可以稍微扩展一点:用 AI 不是目的,用 AI 解决问题才是。就像最近我也感受到 Token 消耗越来越多,Coding 套餐都不够用。作为开发者,Token 消耗数、Skill 创建数都让我兴奋,但我也会常常回归到产品经理的角色,提醒自己:技术含量、难度、复杂度、优雅度等等,这些都不等同于商业回报。
很多从大厂出来的人,包括我自己,容易陷入宏大叙事,动不动就想做平台、做生态。写个 Skill 都想要解决宏大问题。其实,有些项目就是解决一个很小、很具体的需求,但它是刚需,而且能做得足够好。分享一个真实案例:我正在给一家线下眼镜店做一个项目,解决他们多个店铺手写单据的录入问题,并能实现镜片的自动下单。为实现项目目标,正在打磨多个 Skills。这个场景甚至有点“原始”,很多人不理解怎么现在还有手写单据,但现实世界远比我们理解的复杂,有太多折叠面。不眼高手低,真的投入进来做具体的事,我发现这件看似简单的事依然有很多问题和挑战,但解决了就能获得最直接的价值。
不得不说,大模型时代,变化就是常态。经过这几年的“洗礼”,我也沉淀了一些“不追热点”的稳定心态,比如我到现在也没养虾,因为我知道自己在做什么,知道为什么这么做。我和客户离得越近,越能看见那些不一定宏大、但真实存在的挑战。这些需求会让我踏实下来,把注意力放到怎么用当下最好的工具和思路去解决问题。
2026 年,模型能力还在进化,工程正在加速。打磨一个解决具体问题的 Skill,认真做 Harness Engineering,我们自己也在这个过程中持续进化着。这件事本身,自有价值。
近期更新
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-22
我们用150个任务测试了30个skill,跑出7个反直觉结论
2026-05-22
怎么让 Agent Skills 自进化?Agent 回答质量翻倍
2026-05-22
清华连发2篇自进化Skill,Agent彻底活了
2026-05-21
我把Markdown转知识图谱,做成了Skill
2026-05-21
3张图5000字,认真聊聊什么才是好的Skill
2026-05-20
网盘存量代码迁移实战:我们如何用三层架构管住 AI 的输出
2026-05-20
从手写 Prompt 到可复用 Skills:AI Agent 的“技能包”
2026-05-20
重新定义Skill开发:保姆级教程&一站式开发助手发布
2026-04-05
2026-03-04
2026-03-05
2026-03-17
2026-03-03
2026-03-03
2026-03-17
2026-03-10
2026-03-26
2026-03-05