微信扫码
添加专属顾问
我要投稿
淘宝营销会场智能测试平台通过AI技术实现测试全流程自动化,大幅提升测试效率与质量,引领测试领域新变革。 核心内容: 1. 基于LLM与多模态Agent的智能测试解决方案 2. 实现会场渲染校验、一致性比对等核心功能自动化 3. 测试人效提升100%,推动测试向AI智能化转型
背景与现状
会场主链路功能测试 | 页面与楼层交互功能 | 会场(上、下游)一致性验证 | 会场状态切换、定投渲染验证 |
·会场页面结构完整性测试 ·页面渲染方式:csr、ssr、快照、骨架 ·验证点:页面结构符合预期、内容渲染正常 | 1.上下、左右手势滑动 ·页面头下滑搜索头展开 ·会场feeds下滑吸顶 ·会场下滑软刷新 ·会场左右滑动 2.页面与楼层交互功能 | 具体一致性检查点包含但不限于以下内容 1.业务实体(品、店、内容、直播间等)承接正确, 2.业务实体数据表达(价格,名称,利益点,素材,氛围等)符合预期 | 1. 随大促里程碑、业务需求变更,页面结构、内容、氛围随排期切换 2. 页面、楼层设置定投实验 3. 手淘终端渠道渲染 4. 其他终端渠道渲染(其他淘内app与非淘内app) ·打开渲染、内嵌半屏渲染 |
服务端压测 | 兜底容灾验证 | 适配验证 | 会场性能测试 |
业务流量模型梳理-》OPM模型流量录入-》压测报告与数据沉淀 | 多层的容灾兜底场景下服务异常且不影响C端用户的正常浏览访问 | 通过覆盖同一张H5会场在不同型号、系统版本、尺寸、分辨率及DPR(设备像素比)下内容、样式正确性表达,来确保视觉一致性与操作可用性。 | 通过简单的图片纹理canny算子计算边缘纹理,计算会场渲染过程中终帧与首帧加载时间耗时,计算会场渲染首帧响应时长 |
实现方案
示例1:(轻)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例2:(重)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例3:(轻)流程+工具执行;(重)多模态判断
模型注册 | 模型同步调用 | 模型异步调用 |
@AgentParser(appCode = "text-generator", name = "文本生成模型", description = "用于生成创意文本内容")@Componentpublic class TextGeneratorLLM extends IdealLabLLMAbstractBase { @Override public void finishHandler(IdeaLabMessage message) { // 处理完成回调 log.info("Model execution finished: {}", message.getSessionId()); } @Override public void startHandler(IdeaLabMessage message) { // 处理开始回调 log.info("Model execution started: {}", message.getSessionId()); } @Override public void callback(Object[] args) throws Exception { // 异步回写逻辑 } @Override public IdealabRunIdeasRequest buildRequest(Object[] args) { // 构建请求参数 IdealabRunIdeasRequest request = new IdealabRunIdeasRequest(); request.setAppCode(getAppCode()); request.setQuestion((String) args[0]); return request; } @Override public CompletionRequest buildCompletionRequest(Object[] args) { // 构建OpenAI兼容请求 return new CompletionRequest(); }}结果
总结与规划
当前不足
1. 自动化深度不足
问题暴露后仍依赖人工确认与复现
2. 兜底验证能力有待补充
页面渲染异常(如闪烁)识别准确率需提升
Tab切换等动态交互体验检测能力不完善
3. 功能覆盖不够全面
巡检范围需进一步扩展(如复杂交互、个性化推荐)
快照能力、诊断时效性、多端一致性校验待增强
4. 定投策略验证能力不足
缺少对「用户分群定向展示」的自动化校验手段
无法自动识别“应展示未展示”或“非目标人群误展”问题
需支持基于标签(如会员等级、地域、设备)的模拟请求与结果比对
5. 功能或产品能力可以更加的产品化一些,让需要的开发产品运营也能方便的使用
用户反馈闭环缺失:期望增加对用户问题通知、跟进机制
后续规划
在上述不足之处建设并改进。
LLM、多模态、Agent在会场领域测试专项中落地通过串联复杂工具,多模态判断起到一定效果,但实际需求测试环节中需求理解、数据构造、测试用例识别(测试内容选择)上更多靠人工辅助判断。预期将智能体Agent在会场领域落地朝向“需求意图Agent识别”、“测试数据AI构造”、“测试用例AI选择”方向探索。
在AIGC技术爆发、市场剧烈波动、技术栈快速迭代、模型架构多样化的行业背景下,我们在会场AI模型的业务会场测试中进行了一些探索。实践是检验真理的唯一标准,期待与各位专家学者深度交流,共同推动营销导购智能测试的演进。欢迎批评指正。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-16
Kiro:亚马逊新出的 AI 编程工具,免费白嫖一个月 Claude Opus 4.7
2026-05-16
突发!OpenAI高层巨震,ChatGPT与CodeX或合并,超级AI来了!
2026-05-16
AI Native 创业手册 | 蚂上WEEKLY VOL.172
2026-05-16
腾讯造了个“贾维斯”:替我签到改配置,还会打盹上厕所,一手实测来了
2026-05-16
从零构建AI Agent:没有魔法,只有循环
2026-05-15
成为ClaudeCode顶尖1%用户的完整指南
2026-05-15
在手机上用Codex写一下午代码,说实话,有点上头。
2026-05-15
腾讯混元推出轻量翻译大模型,无需联网,手机直接运行!
2026-04-15
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-02-20
2026-04-24
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22
2026-04-18