我要投稿

面向业务落地的AI产品评测体系设计与平台实现

发布日期：2025-12-17 08:38:10 浏览次数： 2395

作者：阿里云开发者

微信搜一搜，关注“阿里云开发者”

一、背景和挑战

1.1 背景

在人工智能技术迅猛发展的推动下，各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统，到医疗领域的辅助诊断工具；从金融行业的风险预测模型，到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是，大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛，更催生了“产业+AI”融合创新的广泛应用场景，为行业智能化升级注入了强劲动能。

在此大背景下，淘宝闪购技术部也在前两年就开始前瞻布局 AI 技术在业务中的深度应用。随着大模型的发展和业务场景探索的结合，FY26的AI应用已经从技术探索向价值落地转型，全面渗透至用户、商家、BD的核心操作环节环节，成为提升效率、优化体验的关键驱动力。当前已形成四类主要应用场景：

1. 数字人：如餐饮/零售智能新签经理、商家经营助手、AI 销售助手、面试招聘助手等，整体的发展路径从“被动”等用户提问到“主动”推出功能能力，提升用户满意度。

2. 数据分析与决策类产品：如经营分析、营销托管、AI售后、门店异动分析等，既可作为助手类产品的功能延伸，也可在自己模块内作为一个模块，有的具备一键采纳执行能力，助力商户快速识别问题并采取行动，提升决策效率。

3. 多模态内容创作类产品：如店铺装修、智能帮写、语音会议纪要等，进一步降低内容创作门槛，用户可一键采纳执行，赋能高效完成日常运营任务。

4. 搜推AI化：如C端、B端AI搜索，能够帮助用户搜索推荐店铺、商品，商户快速搜功能、搜品、搜订单、搜规则等。

1.2 挑战

在AI产品落地过程中，它的不确定性、动态性和复杂性，给质量和体验保障带来了前所未有的挑战。AI产品的特性使得测试既不是简单的功能验证，也不是纯算法模型的评测，我们梳理了面临的几个比较突出的挑战点：

研发合作模式变革

技术快速演进

Agent链路复杂度高

1、从“验收式测试”到“共创式评测”

工程产品是“需求明确 → 设计实现 → 测试验证”，AI产品则是“技术驱动 → 场景探索 → 效果迭代”的螺旋式过程。

挑战点：

评测需前置至需求阶段，与产品和研发共同定义“好”的标准。

1、应用架构演进快

模型、应用框架等基础建设日新月异，导致研发框架迭代升级频繁。

挑战点：

白盒分层测试在架构调整时要大改测试用例、脚本和基线，维护成本极高；如何平衡端到端测试和白盒测试。

1、金标数据回测难

在算法评测中，金标评测集可以长期复用；在agent场景：每次评测时，外部服务数据、时间、接口行为可能变化；即使输入相同，也会因为外围导致答案偏离原始金标。

挑战点：如何构建可回放的环境充分利用金标数据，减少金标数据失效。

2、研发节奏与版本形态变化

以前一个版本是一次代码发布；现在一个版本可能是：模型更换、prompt 改写、检索策略调整、工具编排改造或它们的任意组合；

挑战点：需要建立适配不同变更类型的评测策略组合，否则要么评测成本爆炸，要么质量风险不可控。

2、评测技术发展快

近年来LLM-as-a-judge、多模型互评、 Agent-as-a-judge、自动化对抗样本等新技术层出不穷。

挑战点：如何设计通用的评测平台，能快速集成新的用例集生成和评测方式；避免平台成为绑定特定技术的重资产系统。

2、线上效果评估难

线上效果评估同样面临链路复杂度与人工资源双重制约。

挑战点：如何通过"自动化+半自动化"构建标注体系，以裁判与规则筛查为主、辅以少量人工抽检校准。

二、评测体系思考

面对上述研发合作模式、技术演进与 Agent 链路复杂度带来的多重挑战，评测工作需要从传统的“验收活动”升级为贯穿AI产品全生命周期的“质量工程体系”，构建一套支撑其持续迭代发布的评测体系和平台，成为AI产品优化迭代的“指路灯”。

首先，我们来看整个研发模式流程的变化：

1）评测标准的制定从研发单一角色制定转变到产品、设计、研发、业务方（BD/运营）共同参与指标，从“研发自说自话”转向“业务-技术目标同频”，解决AI产品常见的“技术达标但体验崩坏”问题。

2）质量保障重心从单一线下测试拓展为“线下守基线+线上效果评估”双轨并行，确保迭代稳定性与线上效果的实时对齐。

3）针对多数产品缺乏专职标注团队的现状，人工评测不再依赖规模化的外包打标，而是通过“化整为零”策略，回收研发评测、产设验收及线上运营标注数据——将优质数据沉淀为金标集，对差的数据结合预期修正后转化为自动化回归用例，盘活全链路人工数据价值。

接下来，我们从"评什么（维度），怎么评（评测方式策略）、怎么度量（覆盖与效率）"以及“线上效果怎么评估”几个方面进行思考：

2.1 评什么（维度）——AI产品评价维度

AI 产品的评价指标不应千篇一律，但在顶层维度上可以相对稳定。通常可从以下五个维度展开，并根据产品生命周期和当前迭代重点动态调整侧重点，动态裁剪：

业务目标：对业务结果的贡献，如转化率、留存、GMV、人工替代率等；
产品效果：回答正确率、用户帮助性、组件/工具选择准确率、忠实度、逻辑性、数值幻觉等核心质量指标；
性能与体验：响应时延、多轮交互体验、截断率、用户满意度等；
安全与合规：内容安全、数据隐私、合规要求等；
服务与成本：服务稳定性、推理成本、资源使用效率、运维复杂度及整体性价比。

2.2 怎么评 ——评测方式和策略

端到端评测 VS 分层评测比较：

评测方式

端到端评测

分层评测

优点

1. 贴近真实用户体验，能直接回答“是否解决用户问题”；

2. 指标易于对业务方解释（任务成功率、满意度等）；

3. 适合作为版本对比和上线决策依据；

1. 能细化到意图识别 / 工具规划 / 文本召回等模块，便于精准定位问题和针对性优化；

2. 不同层可以采用最合适的指标；

缺点

1. 难以精确定位问题来源（是模型、检索还是工具出错）；

2. 在 Agent + 外部服务场景下，链路易随时间漂移，结果不稳定；

1. 评测集维护工作量指数级上升，需要为每一层单独维护用例与脚本；

2. 评测集和评测方式与开发实现耦合度高，需频繁跟随架构升级迭代调整；

面对Agent架构下链路复杂度高、版本形态多变等挑战，90%以上的供给AI应用均是基于E-LLM-Stack进行开发，E-LLM-Stack是面向淘宝闪购大模型应用解决方案的基建设施，旨在为淘宝闪购各业务线开发同学提供一套模板化、规范化、生产级的大模型应用解决方案，涵盖了从应用框架到原子能力的一站式方案。其他部门也会提供对前端的TPP、HSF接口，这部分的接口相对稳定，即使架构升级也会兼容老逻辑。

因此，我们推荐大部分AI产品的评测基于端到端评测，以AI应用对外的顶层解决方案/接口作为切入点，同时复杂的AI应用也会对接多个下游Agent，也可针对某个下游Agent实施精准测试，形成"全局把控+局部深挖"的保障机制，即避免了白盒过度绑定细节，也能精准定位到哪一类功能/问题，配合E-LLM-Stack上自带的链路跟踪排查工具，解决归因定位的问题。

主流的评测方式从是否有参考答案的维度上来讲：

有参考答案（Reference-based）
无参考答案（Reference-free）

对这2种方式进行一个比较：

评测方式	有参考答案	无参考答案
特点及适用场景	每个样本可以预先定义标准答案或有限集合的“可接受答案” 适用于目标明确、可标准化的场景：结构化问答、信息抽取、数据计算、一键执行调用参数正确性等	场景本身不存在唯一标准答案，或穷举标准答案成本极高适用于开放式生成、多轮对话、创意写作等主观性强且答案多样的场景
优点	指标客观、可重复可形成“金标集”，作为产品和模型演进的基线	数据构造灵活能覆盖更多真实复杂场景
缺点	标注成本高，对开放式任务覆盖有限在 Agent + MCP 场景下需依赖“可回放环境”，否则金标容易失效	评价主观性强，易受裁判 / 模型偏好影响，需通过抽样人工复核、裁判版本固化等方式控制稳定性和可比性对数值、链接等强约束信息，如果没有配套规则/工具，即使人工也很难做精确核验

线下评测是 AI 产品质量保障的基础环节，评测方式重点是在可控环境下，充分利用金标数据对版本进行验证。没有金标数据的情况下，也要尽可能收集参考资料，为裁判评测提供依据。那针对有参考答案（Reference-based）和无参考答案（Reference-free）存在的短板要思考相对应的解决方案：

1）针对有参考答案的评测，我们核心要解决的是构造一个稳定可复现的“环境”。

去年我们在做智能新签评测时，已经意识到稳定可复现环境的重要性，开发了基于 EAgent3.0 （供给内部的一个对话类解决方案模板）的录制回放插件，可以在调用时记录外围工具的入参/出参、时间等信息；回放时注入当时记录的数据，实现评测环境的稳定，金标用例的可重复回放；后续规划将统一基于 E_llm_stack 对 MCP 层请求和响应进行记录和回放的能力，达到平台通用的目的。

2）针对无参考答案的评测，我们核心要解决的是跟上评测技术发展，有快速接入新评测范式的能力。

目前FY26 S1 我们采用的大多是 LLM-as-a-Judge范式，主要的落地形式有2种：

I、通过设计多维度、可量化的打分维度（如正确性、完整性、逻辑性、安全性等）建立类似指标衡量的基线；

II、通过抽样采集线上近几天数据进行预发回放，比对线上/预发返回做定性比较“好”、“坏”、“差不多”（比对评测）。

在实践中发现，通用裁判模型对有些产品内的细节不了解，难以判断，因此针对复杂场景从通用的“模型裁判”升级为微调的 "模型裁判"或“Agent 裁判”，让裁判本身具备检索、工具调用等能力，主动收集可佐证的参考资料后再打分，提高对事实、数值、外链等细节的判断能力。如下图所示：

此外，我们尝试规则和启发式检测，沉淀通用工程规则、裁判通用规则（如格式校验、淘宝闪购禁发品黑名单等规则等），提供给各个业务做检测支持。构建通用+定制的多裁判的方式。

2.3 怎么度量——覆盖度量与效率

评测方式和策略确定之后，真正落地到每一次版本迭代，首先要回答的不是“怎么评”，而是“评多少、评哪些”：在有限的时间和人力内，本次迭代应该选择哪些评测集、覆盖到哪些场景和链路，才能既保证质量，又能满足90%以上的回归在小时级别完成，这恰恰是当前线下评测的核心难点之一。我们建议按“变更范围 × 变更风险”来设计三档评测策略，并通过用例标签体系自动筛选推荐用例：

版本等级	典型变更	线下评测策略	用例选择
小变更	Prompt 针对性微小调整召回参数、排序权重小幅微调 UI 文案 / 轻量交互变更，对底层能力影响极小	目标：快速确认“无裂化” 小规模端到端冒烟用例（覆盖关键主链路 + 典型高频场景）	筛选核心场景 + 抽样高风险场景 + 抽样高频BadCase的少量代表性用例
中等变更	日常需求迭代，新增 / 调整一个工具或知识源/接入Agent 调整 Agent 策略（如规划、反思、重试逻辑）	目标：确认变更点效果有提升且未引入新的明显问题围绕变更点的定向专项端到端评测补充无参考答案评估（LLM 评审 + 人工抽查）	筛选或新增本次特定业务场景 + 受到本次变更工具/链路的影响数据 + 历史 BadCase
重大变更	基础模型替换或新增模型路由大规模重构，多工具编排方案变化关键业务流程逻辑重写	目标：系统性验证整体质量全量或高覆盖端到端回归（覆盖核心业务、长尾场景、安全与越权场景）	全量沉淀的产品金标用例线上近期数据的对比回放裁判评测必要时引入对抗样本，探索潜在新风险

这套“按变更分级 + 标签选集”的策略能否落地，前提是要有一套清晰、可操作的用例标签体系。S2 阶段我们计划从三个主维度入手进行建设，在保证简单可用的前提下，为后续按需扩展留出空间。

主维度	标签字段	示例取值
业务维度	业务领域	基础与咨询/履约/营销/门店基础/……
	商户/用户特征	到家/到店，单店/连锁等等
	场景功能	异常归因/商圈诊断/机会品/账单诊断/……
质量与风险维度	风险等级	高/中/低
	重要程度	P0 / P1 / P2
	是否线上BadCase	是/否
	对抗样本	是/否
系统链路维度	任务类型	RAG问答/数据分析/工具执行/经验匹配……
	工具/服务	无工具 / Tool_A / Tool_B / Agent_C …
	是否深度思考	是/否