微信扫码
添加专属顾问
我要投稿
淘宝营销会场智能测试平台通过AI技术实现测试全流程自动化,大幅提升测试效率与质量,引领测试领域新变革。 核心内容: 1. 基于LLM与多模态Agent的智能测试解决方案 2. 实现会场渲染校验、一致性比对等核心功能自动化 3. 测试人效提升100%,推动测试向AI智能化转型
背景与现状
会场主链路功能测试 | 页面与楼层交互功能 | 会场(上、下游)一致性验证 | 会场状态切换、定投渲染验证 |
·会场页面结构完整性测试 ·页面渲染方式:csr、ssr、快照、骨架 ·验证点:页面结构符合预期、内容渲染正常 | 1.上下、左右手势滑动 ·页面头下滑搜索头展开 ·会场feeds下滑吸顶 ·会场下滑软刷新 ·会场左右滑动 2.页面与楼层交互功能 | 具体一致性检查点包含但不限于以下内容 1.业务实体(品、店、内容、直播间等)承接正确, 2.业务实体数据表达(价格,名称,利益点,素材,氛围等)符合预期 | 1. 随大促里程碑、业务需求变更,页面结构、内容、氛围随排期切换 2. 页面、楼层设置定投实验 3. 手淘终端渠道渲染 4. 其他终端渠道渲染(其他淘内app与非淘内app) ·打开渲染、内嵌半屏渲染 |
服务端压测 | 兜底容灾验证 | 适配验证 | 会场性能测试 |
业务流量模型梳理-》OPM模型流量录入-》压测报告与数据沉淀 | 多层的容灾兜底场景下服务异常且不影响C端用户的正常浏览访问 | 通过覆盖同一张H5会场在不同型号、系统版本、尺寸、分辨率及DPR(设备像素比)下内容、样式正确性表达,来确保视觉一致性与操作可用性。 | 通过简单的图片纹理canny算子计算边缘纹理,计算会场渲染过程中终帧与首帧加载时间耗时,计算会场渲染首帧响应时长 |
实现方案
示例1:(轻)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例2:(重)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例3:(轻)流程+工具执行;(重)多模态判断
模型注册 | 模型同步调用 | 模型异步调用 |
@AgentParser(appCode = "text-generator", name = "文本生成模型", description = "用于生成创意文本内容")@Componentpublic class TextGeneratorLLM extends IdealLabLLMAbstractBase { @Override public void finishHandler(IdeaLabMessage message) { // 处理完成回调 log.info("Model execution finished: {}", message.getSessionId()); } @Override public void startHandler(IdeaLabMessage message) { // 处理开始回调 log.info("Model execution started: {}", message.getSessionId()); } @Override public void callback(Object[] args) throws Exception { // 异步回写逻辑 } @Override public IdealabRunIdeasRequest buildRequest(Object[] args) { // 构建请求参数 IdealabRunIdeasRequest request = new IdealabRunIdeasRequest(); request.setAppCode(getAppCode()); request.setQuestion((String) args[0]); return request; } @Override public CompletionRequest buildCompletionRequest(Object[] args) { // 构建OpenAI兼容请求 return new CompletionRequest(); }}结果
总结与规划
当前不足
1. 自动化深度不足
问题暴露后仍依赖人工确认与复现
2. 兜底验证能力有待补充
页面渲染异常(如闪烁)识别准确率需提升
Tab切换等动态交互体验检测能力不完善
3. 功能覆盖不够全面
巡检范围需进一步扩展(如复杂交互、个性化推荐)
快照能力、诊断时效性、多端一致性校验待增强
4. 定投策略验证能力不足
缺少对「用户分群定向展示」的自动化校验手段
无法自动识别“应展示未展示”或“非目标人群误展”问题
需支持基于标签(如会员等级、地域、设备)的模拟请求与结果比对
5. 功能或产品能力可以更加的产品化一些,让需要的开发产品运营也能方便的使用
用户反馈闭环缺失:期望增加对用户问题通知、跟进机制
后续规划
在上述不足之处建设并改进。
LLM、多模态、Agent在会场领域测试专项中落地通过串联复杂工具,多模态判断起到一定效果,但实际需求测试环节中需求理解、数据构造、测试用例识别(测试内容选择)上更多靠人工辅助判断。预期将智能体Agent在会场领域落地朝向“需求意图Agent识别”、“测试数据AI构造”、“测试用例AI选择”方向探索。
在AIGC技术爆发、市场剧烈波动、技术栈快速迭代、模型架构多样化的行业背景下,我们在会场AI模型的业务会场测试中进行了一些探索。实践是检验真理的唯一标准,期待与各位专家学者深度交流,共同推动营销导购智能测试的演进。欢迎批评指正。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-08
Codex Chrome 插件实测:多标签并行后,AI 浏览器代理终于顺手了
2026-05-08
AI吞噬软件的叙事要分化了?
2026-05-08
民生银行基于规格驱动开发(SDD)的 CodeAgent 私域研发探索与实践
2026-05-08
Agent 时代的生产力悖论:当协作本身成为最大的瓶颈
2026-05-08
OpenAI发布新一代实时语音模型,能够像人说话一样进行推理、翻译和转录
2026-05-07
用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践
2026-05-07
Anthropic 官方生产级 Agent 最佳实践:12 个可复用的 MCP 设计模式
2026-05-07
从“记住”到“学会”:OceanBase seekdb M0 如何让 Agent 真正积累经验
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-04-07
2026-03-17
2026-02-09
2026-03-17
2026-03-21
2026-02-20
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07