2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Harness Engineering实践,做了一个平台让AI一晚上自动评测和优化你的系统

发布日期:2026-04-29 08:44:38 浏览次数: 1524
作者:阿里云开发者

微信搜一搜,关注“阿里云开发者”

推荐语

阿里工程师分享AI自动化评测平台实践,一晚上实现系统全自动优化,解放人力提升效率。

核心内容:
1. AI自主生成评测集与自动化评测流程设计
2. 包含UI内容质量评估的三类实战案例解析
3. 系统级自动优化闭环实现与多轮迭代验证

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

本文介绍一个我近期做的一个实践流程,快速搭建了一个小平台,基于这个平台可以做全自动化的评测,乃至于整个系统的全自动化优化,包括三个案例:
1. 基础的全自动化无UI评测;
2. 带UI的自动化评测,甚至评测UI里面的内容质量;
3. 整个系统的自动评测+优化,来回往复进行三轮,优化一晚上。

一、准备一个评测平台

说起评测平台,大家想到的,都是先定义好要做什么评测任务,然后去收集一些评测集,用评测集进行任务的回放和评测指标的观测,最后拿到评测结果,这个是一个很自然的评测流程。

但很快遇到一个痛点:人去做评测集的收集很苦很累,评测的进行也很烧时间,评测同学的意愿也并不是很强。

现在AI时代,自然就会想着AI First,能否定义好评测任务,让AI自主的去生成评测集,并且自主的模拟用户去运行这些评测,最终生成评测报告,乃至于最终能够基于评测报告优化系统,并且继续持续往复的进行过程。

这种AI First的理念,落到平台上,其实尽量就是只允许AI操作,人是无法操作的,从入口层面杜绝了人去干苦力活,如下图所示,玩法其实很简单,平台分不同的工作空间,然后复制这个技能说明,到自己的AI Agent里去((本地的cc、codex、qoderwork、悟空等等都可以),就可以发布评测任务、让AI认领评测任务去生成评测集、基于评测集评测、提交评测报告等等工作。

这个评测平台有这些能力,都让AI来自动化操作:

1.创建评测任务,评测任务要求写明白评测目标、验收标准;

2.创建评测集,一个评测任务绑定若干个评测集,评测集要求有明确的评测步骤和预期结果;

3.创建评测报告,一个评测任务可以有多个评测报告,评测报告就是基于评测集的报告,最终会有一个打分。

具体我们来看多个案例,如何让AI生成任务和评测集,并且自己进行评测(包括UI评测),提交评测报告,最后还能基于评测报告优化系统,来回往复进行全自动优化。

二、长时间的系统自动优化

这里更新一个新的case,没看过原文的同学可以先从下面的基础case看起。

对于评测集,我们设定了两种,分别是标准(有明确的成功还是失败的状态),以及rubrics,也就是对于一些内容质量评测的时候,无法直接是成功还是失败,比如评测生成出来的一个图片好坏,这种时候利用rubrics生成一系列的不同等级的评测用例。

例如对一个查询OKR的场景,只是查没查出来是欠点意思的,但是可以生成出一系列的不同等级的评测用例:

在AI连接评测平台去生成评测集的说明里也有体现:

然后对于一个系统,在做一个AI优化功能的时候,不仅仅考虑AI功能本身做出来的质量如何,也需要考虑比如系统的顺滑衔接、UI的品味和质量高低,所以AI在反复迭代验证的时候,会生成多套评测集,来回反复的去验证:

对这些继续的AI自动自己进行评测优化和迭代,效果还是非常的好的,持续的优化评测集,优化,然后继续下一个版本的迭代,分数是稳步上升的:

三、一个基础的自动化测评案例

我们来举一个例子,比如钉钉文档有MCP,我现在想全方位的测评一下这个钉钉文档,所以我打开QoderWork,复制评测平台上的链接,输入这么一段话:

阅读https://ai-test.alibaba.net/skill-setup.md?api_key=***-***-***,当前空间的apikey=***-***-***目前我们要来测试钉钉文档的mcp,了解钉钉文档mcp能做哪些事情,然后发布一个评测任务,生成至少10个评测集,并且进行评测提交评测报告

如图所示:

经过一段时间后,我们能看到跑完了,创建了一个任务,并且设计了13个测试用例,覆盖了钉钉文档MCP的主要功能,并且对每个功能都进行了测试,最终提交了评测报告,总分95分,说明功能是没有什么大问题的。

具体我们进入评测平台看看,可以看到有一条“钉钉文档MCP工具全功能评测”的任务:

对应的,在评测集里,也有了13条评测用例:

我们可以具体的看里面的评测用例都是什么,一共13个用例,都写的还不错,而且还有衔接,要知道我发布任务的时候也没怎么说:

可以看到评测用例还是比较有连贯性的,进一步,我们看看这些case评测的效果怎么样,我们看评测报告,目前只有一份评测报告,评分是95分:

具体看看报告里的内容,完整的评测报告比较长,大概3-4千字,我们截一部分:

扣5分的点在于:“TC10 创建文件夹时名称被自动追加序号"(1)",说明可能存在同名检测机制,但接口未返回冲突提示,用户可能不易感知。”,最终结果:“钉钉文档MCP整体功能完备、接口响应正常、数据一致性良好,是一个成熟可用的文档操作MCP工具集。

可以看到对于这种工作,AI确实可以来干活了,这个case也可以推广到,比如你有一个skill的文件夹包,你可以基于这个skill包,去生成几百个评测skill的用例,然后判断触发没触发,效果怎么样,最后基于评测结果自动化优化skill包。

四、一个不仅仅是UI测试的案例

刚刚采用QoderWork实践的是一个不需要界面UI的评测,理论上全部都可以在终端里搞定,复杂度是没那么高的,但现在的Cowork产品都号称能连接浏览器,进行浏览器的自动化操作,那么实际上,我们这套模式也可以推广到UI测试方面。

并且甚至不仅仅是UI测试,因为是AI Agent,可以顺带评测UI里的内容的相关质量,比如网站的内容是AIGC,是可以一起进行评测的。

现在我们开始,我有一个工具平台,叫做绘报,可以这个绘报可以输入一些文本或者导入一个钉钉文档,生成各种风格好看的精美的汇报文稿:

那么我现在期望能自动化测评最近生成的5个项目,并且5个项目是否功能正常,生成出来的质量是否正常,然后我继续打开QoderWork,输入测评平台的链接,并且简单描述下我想做这个事情。

稍微等待一会,我们可以看到QoderWork连接了我的浏览器,共享了登录态,并且打开了绘报的系统,开始进行分析:

再稍等一会,就看到评测平台上,多了一个评测任务:

并且评测任务,关联了5个刚生成的评测集:

接下来回到QoderWork,看看任务进度,可以看到第一个PPT已经评测完了,正在评测第二个PPT:

那我们就继续等一等,直到所有的PPT都测评完成,差不多跑了20分钟,全部跑完了:

进入我们的平台,我们可以看到有5个评测集:

然后我们点进评测报告,整体85分,每一个PPT都有评测结果,包括功能+质量的评测:

五、一个系统自动优化的案例

上面两个Case,介绍的其实都是人去发布一个评测任务,但是评测报告,还是得人去看,我想的就是,这么长的评测报告,我也不太想看,就想知道怎么直接系统优化,那正常来说,让cc、cursor、codex这些能写代码的,去读这个评测报告,不就可以进行优化了,更进一步,还可以来回往复的,自动去优化系统。

说干就干,首先,我有一个业务系统(因为有一些业务逻辑,所以都打个码),里面有几个AI能力,然后打开cursor,输入我的评测平台的链接,告诉他我要对这两个功能进行自动优化,你需要发任务、做评测集、评测、评测完了自动进行优化,优化完了再来一轮,这个过程至少进行三轮

然后开始跑了,可以看到一轮评测的时间很长,大概需要1小时,因为这两个功能是带AI的,进行测试的时候需要先等平台系统的AI跑完,这里相当于cursor先等待这些评测集在系统上跑完,然后进行评测:

接下来人直接去睡觉,让系统跑着吧,因为时间大概要跑三四个小时。

睡了一觉,早上起来,打开评测平台,可以看到我有三个归档的任务了,分别标识是v1、v2、v3,并且v1的分数是90.7分,v2是97.4分,v3是99.1分,评测的分数也在稳步的提升!

可以在 cursor 里看到最终的一个对比说明和优化说明,对五个维度,进行了评测和优化,最终的第三个版本在5个维度上都比较清晰:

平台上的评测报告也非常的清晰,因为我的两个功能是AI功能,所以每一个用例,大概需要等1分钟AI输出,然后cursor是真的等所有的平台真实的用例跑完了之后,再针对多个维度进行评测,对每个用例的每个维度都有列表和说明,最后才给的评分,是比较认真的。

六、总结

这几个案例跑下来,还是有一些aha的,一方面确实是全自动化,人在里面干的事,就是花三四分钟描述下任务启动评测,剩下的就是看一看,非常的省力,但是要做到这个程度,还是有一些先决条件:

1.系统本身的UI规范和基础设施要达标:比如UI测试,经常出现不规范的情况,导致AI在UI里迷路了,这种情况就没法很好的自动化测试,但是也给了个警醒,AI都迷路了,更何况用户呢,所以这种基础的优化没达标,AI也没法测,另外就是QoderWork可以用插件来链接浏览器,不需要额外的登录,点个赞。

2.系统自动化优化,前提是系统本身AI Coding含量很高,因为一个人手工做的系统,约定大于配置的内容太多,AI也很难进行功能的跑通和优化,经常在一个地方就断掉了,这个实践跑的比较好的案例都是在AI Coding含量很高的系统,本身AI可以快速的启动本地的服务去做验证和测试,很多老系统其实日常环境也没有,到处都是断头路,这样也是做不好的。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询