我要投稿

Harness Engineering实践，做了一个平台让AI一晚上自动评测和优化你的系统

发布日期：2026-04-29 08:44:38 浏览次数： 1524

作者：阿里云开发者

微信搜一搜，关注“阿里云开发者”

本文介绍一个我近期做的一个实践流程，快速搭建了一个小平台，基于这个平台可以做全自动化的评测，乃至于整个系统的全自动化优化，包括三个案例：

1. 基础的全自动化无UI评测；

2. 带UI的自动化评测，甚至评测UI里面的内容质量；

3. 整个系统的自动评测+优化，来回往复进行三轮，优化一晚上。

一、准备一个评测平台

说起评测平台，大家想到的，都是先定义好要做什么评测任务，然后去收集一些评测集，用评测集进行任务的回放和评测指标的观测，最后拿到评测结果，这个是一个很自然的评测流程。

但很快遇到一个痛点：人去做评测集的收集很苦很累，评测的进行也很烧时间，评测同学的意愿也并不是很强。

现在AI时代，自然就会想着AI First，能否定义好评测任务，让AI自主的去生成评测集，并且自主的模拟用户去运行这些评测，最终生成评测报告，乃至于最终能够基于评测报告优化系统，并且继续持续往复的进行过程。

这种AI First的理念，落到平台上，其实尽量就是只允许AI操作，人是无法操作的，从入口层面杜绝了人去干苦力活，如下图所示，玩法其实很简单，平台分不同的工作空间，然后复制这个技能说明，到自己的AI Agent里去（（本地的cc、codex、qoderwork、悟空等等都可以），就可以发布评测任务、让AI认领评测任务去生成评测集、基于评测集评测、提交评测报告等等工作。

这个评测平台有这些能力，都让AI来自动化操作：

1.创建评测任务，评测任务要求写明白评测目标、验收标准；

2.创建评测集，一个评测任务绑定若干个评测集，评测集要求有明确的评测步骤和预期结果；

3.创建评测报告，一个评测任务可以有多个评测报告，评测报告就是基于评测集的报告，最终会有一个打分。

具体我们来看多个案例，如何让AI生成任务和评测集，并且自己进行评测（包括UI评测），提交评测报告，最后还能基于评测报告优化系统，来回往复进行全自动优化。

二、长时间的系统自动优化

这里更新一个新的case，没看过原文的同学可以先从下面的基础case看起。

对于评测集，我们设定了两种，分别是标准（有明确的成功还是失败的状态），以及rubrics，也就是对于一些内容质量评测的时候，无法直接是成功还是失败，比如评测生成出来的一个图片好坏，这种时候利用rubrics生成一系列的不同等级的评测用例。

例如对一个查询OKR的场景，只是查没查出来是欠点意思的，但是可以生成出一系列的不同等级的评测用例：

在AI连接评测平台去生成评测集的说明里也有体现：

然后对于一个系统，在做一个AI优化功能的时候，不仅仅考虑AI功能本身做出来的质量如何，也需要考虑比如系统的顺滑衔接、UI的品味和质量高低，所以AI在反复迭代验证的时候，会生成多套评测集，来回反复的去验证：

对这些继续的AI自动自己进行评测优化和迭代，效果还是非常的好的，持续的优化评测集，优化，然后继续下一个版本的迭代，分数是稳步上升的：

三、一个基础的自动化测评案例

我们来举一个例子，比如钉钉文档有MCP，我现在想全方位的测评一下这个钉钉文档，所以我打开QoderWork，复制评测平台上的链接，输入这么一段话：

阅读https://ai-test.alibaba.net/skill-setup.md?api_key=***-***-***，当前空间的apikey=***-***-***目前我们要来测试钉钉文档的mcp，了解钉钉文档mcp能做哪些事情，然后发布一个评测任务，生成至少10个评测集，并且进行评测提交评测报告

如图所示：

经过一段时间后，我们能看到跑完了，创建了一个任务，并且设计了13个测试用例，覆盖了钉钉文档MCP的主要功能，并且对每个功能都进行了测试，最终提交了评测报告，总分95分，说明功能是没有什么大问题的。

具体我们进入评测平台看看，可以看到有一条“钉钉文档MCP工具全功能评测”的任务：

对应的，在评测集里，也有了13条评测用例：

我们可以具体的看里面的评测用例都是什么，一共13个用例，都写的还不错，而且还有衔接，要知道我发布任务的时候也没怎么说：

可以看到评测用例还是比较有连贯性的，进一步，我们看看这些case评测的效果怎么样，我们看评测报告，目前只有一份评测报告，评分是95分：

具体看看报告里的内容，完整的评测报告比较长，大概3-4千字，我们截一部分：

扣5分的点在于：“TC10 创建文件夹时名称被自动追加序号"(1)"，说明可能存在同名检测机制，但接口未返回冲突提示，用户可能不易感知。”，最终结果：“钉钉文档MCP整体功能完备、接口响应正常、数据一致性良好，是一个成熟可用的文档操作MCP工具集。”

可以看到对于这种工作，AI确实可以来干活了，这个case也可以推广到，比如你有一个skill的文件夹包，你可以基于这个skill包，去生成几百个评测skill的用例，然后判断触发没触发，效果怎么样，最后基于评测结果自动化优化skill包。

四、一个不仅仅是UI测试的案例

刚刚采用QoderWork实践的是一个不需要界面UI的评测，理论上全部都可以在终端里搞定，复杂度是没那么高的，但现在的Cowork产品都号称能连接浏览器，进行浏览器的自动化操作，那么实际上，我们这套模式也可以推广到UI测试方面。

并且甚至不仅仅是UI测试，因为是AI Agent，可以顺带评测UI里的内容的相关质量，比如网站的内容是AIGC，是可以一起进行评测的。

现在我们开始，我有一个工具平台，叫做绘报，可以这个绘报可以输入一些文本或者导入一个钉钉文档，生成各种风格好看的精美的汇报文稿：

那么我现在期望能自动化测评最近生成的5个项目，并且5个项目是否功能正常，生成出来的质量是否正常，然后我继续打开QoderWork，输入测评平台的链接，并且简单描述下我想做这个事情。

稍微等待一会，我们可以看到QoderWork连接了我的浏览器，共享了登录态，并且打开了绘报的系统，开始进行分析：

再稍等一会，就看到评测平台上，多了一个评测任务：

并且评测任务，关联了5个刚生成的评测集：

接下来回到QoderWork，看看任务进度，可以看到第一个PPT已经评测完了，正在评测第二个PPT：

那我们就继续等一等，直到所有的PPT都测评完成，差不多跑了20分钟，全部跑完了：

进入我们的平台，我们可以看到有5个评测集：

然后我们点进评测报告，整体85分，每一个PPT都有评测结果，包括功能+质量的评测：

五、一个系统自动优化的案例

上面两个Case，介绍的其实都是人去发布一个评测任务，但是评测报告，还是得人去看，我想的就是，这么长的评测报告，我也不太想看，就想知道怎么直接系统优化，那正常来说，让cc、cursor、codex这些能写代码的，去读这个评测报告，不就可以进行优化了，更进一步，还可以来回往复的，自动去优化系统。

说干就干，首先，我有一个业务系统（因为有一些业务逻辑，所以都打个码），里面有几个AI能力，然后打开cursor，输入我的评测平台的链接，告诉他我要对这两个功能进行自动优化，你需要发任务、做评测集、评测、评测完了自动进行优化，优化完了再来一轮，这个过程至少进行三轮。

然后开始跑了，可以看到一轮评测的时间很长，大概需要1小时，因为这两个功能是带AI的，进行测试的时候需要先等平台系统的AI跑完，这里相当于cursor先等待这些评测集在系统上跑完，然后进行评测：

接下来人直接去睡觉，让系统跑着吧，因为时间大概要跑三四个小时。

睡了一觉，早上起来，打开评测平台，可以看到我有三个归档的任务了，分别标识是v1、v2、v3，并且v1的分数是90.7分，v2是97.4分，v3是99.1分，评测的分数也在稳步的提升！

可以在 cursor 里看到最终的一个对比说明和优化说明，对五个维度，进行了评测和优化，最终的第三个版本在5个维度上都比较清晰：

平台上的评测报告也非常的清晰，因为我的两个功能是AI功能，所以每一个用例，大概需要等1分钟AI输出，然后cursor是真的等所有的平台真实的用例跑完了之后，再针对多个维度进行评测，对每个用例的每个维度都有列表和说明，最后才给的评分，是比较认真的。

六、总结

这几个案例跑下来，还是有一些aha的，一方面确实是全自动化，人在里面干的事，就是花三四分钟描述下任务启动评测，剩下的就是看一看，非常的省力，但是要做到这个程度，还是有一些先决条件：

1.系统本身的UI规范和基础设施要达标：比如UI测试，经常出现不规范的情况，导致AI在UI里迷路了，这种情况就没法很好的自动化测试，但是也给了个警醒，AI都迷路了，更何况用户呢，所以这种基础的优化没达标，AI也没法测，另外就是QoderWork可以用插件来链接浏览器，不需要额外的登录，点个赞。

2.系统自动化优化，前提是系统本身AI Coding含量很高，因为一个人手工做的系统，约定大于配置的内容太多，AI也很难进行功能的跑通和优化，经常在一个地方就断掉了，这个实践跑的比较好的案例都是在AI Coding含量很高的系统，本身AI可以快速的启动本地的服务去做验证和测试，很多老系统其实日常环境也没有，到处都是断头路，这样也是做不好的。