微信扫码
添加专属顾问
我要投稿
从测试开发视角拆解AI Agent工程化难题,助你从Demo走向真实项目。核心内容:1. AI Agent与普通大模型的本质区别2. Agent工程化的核心挑战与关键技术3. 测试开发切入Agent的实战路径与工程框架
关注 霍格沃兹软件测试开发 公众号,回复「资料」, 领取人工智能测试开发技术合集
很多测试开发同学现在都在学 AI Agent。
一开始看 Demo,感觉确实很厉害:
能查资料,能写代码,能生成测试用例,能调用工具,甚至还能自动分析日志。
但真放到企业项目里,问题很快就来了。
需求文档很长,Agent 到底该看哪一段? 接口文档经常变,它怎么保证不乱猜? 生成的用例看起来很完整,实际能不能跑? 自动调用工具时,权限边界怎么控制? 它写错代码、误改逻辑、生成错误报告,谁来兜底? Token 消耗越来越高,怎么避免越用越贵?
这也是很多 Agent 项目卡住的原因。
不是 Demo 做不出来,而是 Demo 很难稳定进入真实工程流程。
对测试开发来说,理解 Agent 不能只看“它会不会回答问题”,更要看它能不能完成一条可靠的任务闭环。
比如:
从需求里识别测试点, 从接口文档里生成用例, 调用自动化框架执行, 根据执行结果分析失败原因, 最后输出可追踪、可验证的报告。
这才是测试开发真正关心的 Agent。
所以这篇文章不会一上来堆概念,而是从测试开发的工作场景出发,把 Agent 背后的工程逻辑拆开讲清楚。
普通大模型更像“问一句,答一句”。
你问它一个问题,它生成一段回答。
但 Agent 不只是回答问题,它更像一个可以围绕目标持续推进的任务执行单元。
它会理解目标,拆解任务,获取上下文,调用工具,观察结果,再继续修正下一步。
先用一张图看懂 Agent 的基本工作方式。
这个闭环非常关键。
因为测试开发工作本身也是闭环型工作:
需求分析、测试设计、自动化执行、结果校验、缺陷定位、报告输出。
所以测试开发场景天然适合 Agent 化。
举个例子。
如果你让普通大模型生成接口测试用例,它可能直接给你一批文本。
但如果是一个真正的测试 Agent,它应该可以这样工作:
这就从“生成内容”变成了“执行任务”。
Agent 对测试开发的价值,不是替你写几行代码,而是把多个测试动作串成一条可执行的工程链路。
很多人刚开始用大模型时,对 Token 没什么感觉。
但只要开始做 Agent,就一定会遇到 Token 问题。
Token 可以理解为大模型处理文本时的最小计算单位。
大模型不是直接理解中文、英文和代码,而是先把文本切成 Token,再映射成数字,然后进行计算。
Token 对 Agent 的影响主要有三个。
输入越长,输出越多,Token 消耗越高。
Agent 如果每次都把需求文档、接口文档、历史日志、代码片段全部塞给模型,成本很快就会上去。
模型一次能处理的上下文是有限的。
如果资料太多,模型只能看到其中一部分。
这就会导致一个问题: 它看起来在回答完整问题,实际上只基于部分信息在判断。
Agent 是多轮执行的。
它会不断积累用户目标、任务步骤、工具返回结果、历史对话和中间分析。
如果不做上下文管理,Agent 很容易越跑越长、越跑越贵、越跑越偏。
所以,做 Agent 不能简单粗暴地把所有资料都塞进去。
更合理的方式应该是这样:
对测试开发来说,Token 管理不是一个底层细节,而是 Agent 能不能稳定落地的基础。
如果上下文控制不好,后面的 RAG、工具调用、报告生成都会受到影响。
测试开发场景有一个特点:
很多关键知识都不在大模型里面,而在企业自己的系统里。
比如:
如果 Agent 不接这些资料,只靠模型自己回答,就很容易出现“看起来合理,实际上不准确”的问题。
这时候就需要 RAG。
RAG 的作用很简单:
在大模型回答之前,先去查资料,再结合资料生成回答。
这就像让模型从闭卷考试变成开卷考试。
对测试开发来说,RAG 可以用在很多场景。
但 RAG 不是把文档扔进向量库就完事。
真正落地时,必须考虑:
这里面任何一个环节没做好,RAG 都可能变成“看似接了知识库,实际回答还是靠猜”。
所以企业 Agent 想要靠谱,RAG 是绕不过去的一步。
Agent 要完成复杂任务,就不能每一步都像第一次执行一样。
它需要记住当前任务的状态,也需要在合适的时候复用历史经验。
所以 Agent 的记忆通常可以分成两类:
短期记忆和长期记忆。
短期记忆主要服务当前任务。
比如用户刚才说了什么,当前执行到哪一步,工具返回了什么结果,下一步应该怎么做。
长期记忆主要服务跨任务复用。
比如某个项目的接口命名习惯,某个团队的自动化框架规范,某类报错的排查路径,某种测试报告的输出格式。
对测试开发来说,长期记忆很适合沉淀这些内容:
不过,记忆不是越多越好。
错误经验会污染后续判断。 过期规则会导致 Agent 误判。 敏感信息不能随意写入长期记忆。 不同项目之间的经验也不能随便串用。
所以企业级 Agent 的记忆系统,一定要有更新、过期、权限和审计机制。
很多测试开发团队的问题不是没有经验,而是经验太分散。
有些在老员工脑子里。 有些在项目文档里。 有些在自动化脚本里。 有些在测试平台说明里。 有些在一次次踩坑里。
如果这些经验不能被结构化沉淀,Agent 每次做任务都要重新理解。
这时候就需要 Skill。
Skill 可以理解为面向大模型的能力封装。
它不是简单的一段 Prompt,而是一组结构化资料、流程、模板和工具。
比如一个接口测试 Skill,可以包含:
这样 Agent 在生成接口用例时,就不是随便发挥,而是按照团队规范执行。
Skill 的价值不是让模型凭空变聪明,而是把团队经验变成可复用资产。
测试开发团队非常适合做 Skill。
因为测试工作里有大量流程化、模板化、规范化的经验,比如:
未来一个成熟的测试 Agent,不应该只是接一个大模型,而应该沉淀一组团队自己的测试 Skill。
Agent 不是一次性生成答案就结束。
很多任务需要边执行边观察结果,再决定下一步。
这就是 ReAct 的价值。
ReAct 是 Reason 和 Act 的组合。
Reason 是推理。 Act 是行动。
它描述的是 Agent 的一种典型工作方式:
先分析当前信息是否足够, 如果不够,就调用工具, 拿到结果后继续判断, 再决定下一步动作。
这个模式和测试开发排查问题很像。
比如接口自动化失败后,测试开发通常不会直接下结论,而是会一步步排查。
Agent 也是类似逻辑。
它不能只靠一次回答完成复杂任务,而是要不断观察结果,再决定下一步。
不过 ReAct 也必须有边界。
否则 Agent 可能会陷入无效循环:
反复调用同一个工具, 反复分析同一段日志, 反复生成没有依据的猜测。
所以工程上需要控制:
Agent 越自主,越需要边界。
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇
一个 Agent 如果不能连接外部系统,它的能力会非常有限。
测试开发场景里,Agent 往往需要连接很多工具:
需求系统、接口文档、数据库、日志平台、Git 仓库、CI/CD、自动化框架、缺陷管理系统。
过去如果要接这些工具,通常需要每个工具单独适配。
这会带来几个问题:
接入成本高。 协议不统一。 上下文格式不统一。 权限控制难统一。 不同 AI 应用之间复用困难。
MCP 的价值,就是让 AI 应用用一种更标准的方式连接外部工具和数据源。
对测试开发来说,MCP 很有想象空间。
未来一个测试 Agent 可以这样工作:
这意味着 Agent 不只是“知道怎么说”,还能知道:
去哪查资料, 调用什么工具, 拿什么结果回来, 下一步怎么处理。
这是 Agent 从 Demo 走向工程系统的关键一步。
很多人用 AI 写代码时,容易犯一个错误:
直接给一句模糊需求,然后期待 AI 自动理解所有上下文。
比如:
帮我优化一下测试报告功能。
这句话对 AI 来说太宽泛。
它不知道你要优化哪里。 不知道哪些逻辑不能动。 不知道旧数据要不要兼容。 不知道接口返回能不能改。 不知道验收标准是什么。
这时候就需要 SDD。
SDD 是 Spec-Driven Development,中文可以叫规格驱动开发。
它强调在正式开发之前,先把目标、范围、约束、行为和验收标准写清楚,再让 AI 按规格执行。
比如同样是优化测试报告,更好的规格应该这样写:
SDD 对测试开发非常重要。
因为测试开发同学未来不只是写脚本,还要会给 AI 写清楚规格。
适合使用 SDD 的场景包括:
谁能把需求讲清楚,谁就更能驾驭 AI。
Agent 一旦进入真实工程系统,就不只是生成文本了。
它可能读取文件。 可能查询数据库。 可能调用接口。 可能修改代码。 可能触发流水线。 可能创建缺陷。 可能生成报告。
这时候,只靠 Prompt 是不够的。
我们需要给 Agent 搭一个可靠、可控、可观测的工作环境。
这就是 Harness 工程。
Harness 工程要解决的问题非常现实。
这些事情,测试开发同学其实并不陌生。
我们做自动化测试平台、质量平台、性能平台时,也要考虑环境、权限、日志、报告、监控、回滚和稳定性。
Agent 工程并没有脱离传统工程规律。
它只是把大模型放进了工程系统里,所以对工程治理提出了更高要求。
前面讲了很多概念。
但这些概念不是孤立存在的。
真正的 Agent 落地,需要把它们串成一条完整链路。
这张图说明了一件事:
Agent 不是单点能力,而是一套工程组合。
只会写 Prompt,做不出稳定 Agent。 只接知识库,也做不出稳定 Agent。 只会调用工具,还是做不出稳定 Agent。
真正能落地的 Agent,一定要同时考虑:
这也是测试开发同学应该重点关注的地方。
我们不是只看 AI 能不能生成内容,而是要看它能不能进入工程流程,并且稳定、可控、可验证地完成任务。
对测试开发来说,Agent 不是一个遥远概念。
它已经开始影响很多具体工作。
未来很多测试任务都会从“人手工写脚本”,变成“人定义目标和规则,Agent 执行并反馈”。
测试开发同学可以从几个方向切入。
先把需求文档、接口文档、测试用例、缺陷记录接入知识库。
让 Agent 能基于真实资料回答,而不是凭空猜。
把团队已有的测试经验整理成 Skill。
比如接口测试规范、自动化脚本模板、日志分析流程、测试报告模板。
让 Agent 能调用真实工具。
比如接口测试框架、浏览器自动化、日志查询、CI/CD、缺陷系统。
把模糊需求变成清晰规格。
让 AI 按照明确目标、范围、约束和验收标准执行。
建立权限、日志、沙箱、验证和人工审核机制。
让 Agent 不只是能跑,还要能控、能查、能回滚。
测试开发同学不能只停留在“会用 AI 工具”。
更重要的是理解 Agent 背后的工程结构。
你要知道:
普通用户关心 AI 能不能给答案。
测试开发更应该关心:
这才是测试开发和普通使用者的差别。
很多人刚接触 Agent,会被各种名词吓到。
Token、RAG、Skill、MCP、Memory、ReAct、SDD、Harness……
但换成测试开发熟悉的语言,其实可以这样理解:
Agent 最终拼的不是一个炫酷 Demo,而是能不能在真实业务里稳定工作。
对测试开发来说,这反而是机会。
因为我们本来就懂流程、懂质量、懂自动化、懂验证、懂工程闭环。
AI Agent 时代,测试开发不只是工具使用者,也可以成为 Agent 工程落地的重要建设者。
真正的分水岭,不是会不会问 AI。
而是你能不能把 AI 放进真实工程流程里,让它稳定、可控、可验证地完成任务。
这个版本的开头会更有“读者痛点”,但不会过早把核心概念都解释完,读者会更愿意往下看。
还在手工写用例?RAG+知识图谱+GraphRAG三大技术,从文档解析到可执行用例全链路打通。基于搜索、向量、图谱的三种用例生成技能,直接落地自动化测试。来学社,把AI测试能力变成你的核心竞争力。
👉 扫码进群,报名学习!
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。
学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。
我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。
在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。
同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-03
客户投诉分析 Skill:把散落的抱怨,变成可执行的改进清单
2026-06-03
从零搭建 Harness Engineering 架构:Rule、Skill、Sub-Agent 完整落地路径
2026-06-03
清华发布的Legal Skills和Claude for Legal有什么编排差别
2026-06-03
合同履约跟踪 Skill:把合同条款变成交付、付款和风险动作
2026-06-03
标书/方案书 Skill:帮小团队快速写投标材料
2026-06-02
MCP 和 Skill:AI Agent 时代的“插座”和“菜谱”
2026-06-01
全是 Web 没 CLI 怎么行:一次把 StarAgent WebTerminal 改造成
2026-06-01
把 Agent Skill 包成 API:从本地调用到服务化落地
2026-04-05
2026-03-17
2026-03-17
2026-03-26
2026-03-10
2026-05-15
2026-04-09
2026-03-18
2026-03-16
2026-03-10