我要投稿

AI 自动化测试：测试智能体（Test Agent）构建实战——从脚本到决策

发布日期：2025-10-22 09:49:55 浏览次数： 3308

作者：Playwright实战教程

微信搜一搜，关注“Playwright实战教程”

关键词：Playwright、DeepSeek、Autonomous Agent、Self-Healing、Decision Engine

一、前言：从自动化到“智能体化”的进化

传统自动化测试的逻辑是：

“脚本执行 → 收集结果 → 人工判断 → 再修复”。

但随着 AI 的引入，我们可以让一个“测试智能体（Test Agent）”具备以下能力：

• 理解目标（知道测试什么、成功的标准是什么）；
• 执行任务（调度测试用例、运行 Playwright 脚本）；
• 感知变化（分析 diff 图像、日志、断言结果）；
• 自主决策（调用 DeepSeek 自愈 / 更新 / 报告）；
• 持续学习（复用历史 prompt、更新策略）；

换句话说，它不是单个测试脚本，而是一个会“思考”的测试助手。

二、架构概览：Test Agent 组成模块

一个典型的 AI Test Agent 由以下五个核心模块组成：
A[🎯 目标定义模块\n(Test Objective)]

B[🤖 测试执行模块\n(Playwright Runner)]
C[🧩 结果分析模块\n(Diff + Log Collector)]
D[🧠 决策中心\n(DeepSeek Decision Engine)]
E[🔁 动作执行模块\n(Self-Healing / Baseline Update)]
F[📊 报告生成模块\n(AI Summary & Report)]
G[📚 学习与复用模块\n(Prompt Memory & Policy Update)]

这个循环体现了“AI 驱动的持续测试闭环”。

三、核心流程详解

1️⃣ 测试执行模块（Playwright Runner）

执行层仍由 Playwright 驱动。
例如我们在 agent_executor.py 中：

from playwright.sync_api import sync_playwright

def run_test_case(case_file: str):
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        try:
            exec(open(case_file).read(), {"page": page})
            return {"status": "pass"}
        except Exception as e:
            return {"status": "fail", "error": str(e)}
        finally:
            browser.close()

✅ 输出结构清晰：status、error、截图路径（后续 AI 分析的输入）。

2️⃣ 结果分析模块（Diff + Log Collector）

当测试失败时，收集如下数据：

• 最新截图 vs baseline 截图；
• 控制台日志；
• 网络请求记录；
• 断言差异。

示例：

result_data = {
    "screenshot_diff": "results/diff_login.png",
    "logs": open("logs/test_login.log").read(),
    "baseline": "baselines/login.png"
}

3️⃣ 决策中心（DeepSeek Decision Engine）

核心智能来自 DeepSeek。

DeepSeek 的 prompt 模板示例：

你是一名AI测试决策系统，需要根据输入判断：
1. 这是环境波动、UI改动还是功能缺陷？
2. 是否建议自动修复（自愈）、人工复核、还是忽略？

输入：
- diff 图：/results/diff_login.png
- 日志摘要：AssertionError: Login failed
- 历史模式：过去5次失败中有3次类似UI改动
请输出：
{
  "decision": "auto_fix",
  "reason": "按钮位置轻微变化，视觉diff < 5%",
  "action": "更新baseline"
}

AI 输出后，系统可自动触发相应动作。

4️⃣ 动作执行模块（Self-Healing / Baseline Update）

示例代码：

def apply_decision(decision):
    if decision["decision"] == "auto_fix":
        # 自动更新baseline
        shutil.copy("results/new.png", "baselines/login.png")
    elif decision["decision"] == "manual_review":
        send_alert("需人工复核: " + decision["reason"])
    else:
        log_info("结果忽略: " + decision["reason"])

5️⃣ 报告生成模块（AI Summary & Report）

生成一个 AI 可读的测试总结：

from deepseek import ai_generate_summary

summary = ai_generate_summary(
    title="Login Test Summary",
    input_data=result_data,
    decision=decision
)
save_report("reports/login_summary.md", summary)

报告结构模板：

# 测试报告摘要
- 测试用例：login_test
- 状态：自愈成功
- 关键变化：按钮样式轻微变化
- 建议：更新基线
- 决策来源：DeepSeek Decision Engine

四、整合成一键运行脚本：test_agent.py

def main():
    case = "tests/test_login.py"
    result = run_test_case(case)
    if result["status"] == "fail":
        data = collect_artifacts(case)
        decision = call_deepseek(data)
        apply_decision(decision)
        generate_report(data, decision)

运行命令：

python test_agent.py

五、实战演示：saucedemo 登录测试

项目结构示例：

tests/
 └── test_login.py
baselines/
 └── login.png
results/
 ├── diff_login.png
 ├── decision.json
 └── report_login.md

AI 智能体执行后输出报告：

DeepSeek 判断为“视觉微调”，系统自动更新基线。
测试状态：PASS（自愈成功）

六、最佳实践与扩展思路

场景	扩展方向
大型项将 Test Agent 集成入 CI/CD（GitHub Actions
多环境部署	支持不同环境的决策模型（dev/stage/prod）
Prompt 管理	维护一个统一的 Prompt 模板仓库
学习反馈	统计自愈成功率、人工复核率，优化策略