2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

微信接入Claw类产品哪家强?SC-WeClaw首测:MiMoClaw夺冠

发布日期:2026-04-27 15:09:34 浏览次数: 1520
作者:CLUE中文语言理解测评基准

微信搜一搜,关注“CLUE中文语言理解测评基准”

推荐语

微信Claw产品哪家强?SC-WeClaw首测揭晓:MiMoClaw以89.29分夺冠,五大维度全面解析各产品优劣势。

核心内容:
1. 测评背景与方法论:首个针对微信ClawBot场景的专项测评基准
2. 产品表现对比:头部产品MiMoClaw领跑,尾部产品能力断层显著
3. 五大能力维度分析:内容创作最强,数据分析与文档处理成短板

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
# 测评背景
随着各家 Claw 产品陆续接入微信 ClawBot,同一对话界面下的能力差异开始显现。SC-WeClaw 是首个针对 Claw 产品接入微信场景的专项测评基准,聚焦私聊环境下的真实交互表现,综合运用自动化脚本与大模型评估,对五大核心能力维度实施独立量化测评,为用户选型与厂商迭代提供客观参照。


SC-WeClaw测评方案文章详见:微信接入的龙虾怎么测?SC-WeClaw场景测评方案发布!

SuperCLUE-XClaw国产龙虾Claw产品测评基准文章详见:国产龙虾Claw产品首测:10款产品真实测评

SC-WeClaw榜单概览

1. 总分对比

2. 五大维度对比

图片

SC-WeClaw测评摘要

摘要1:头部集群内部收敛,尾部能力断层显著
MiMoClaw 以 89.29 分领跑总分榜,KimiClaw、AutoClaw、QClaw 紧随其后构成高分段集群;DuClaw 等居中,CoPaw、MaxClaw 与前列分差逾 10 分,尾部断层显著。


摘要2:内容创作优势稳固,数据分析与文档处理仍存短板

内容创作以 89.48 分构成绝对优势长板,通用文本生成能力已趋成熟。代码开发(79.20 分)与信息检索(78.67 分)处于中等区间,构成专业任务支撑底盘。数据分析(72.91 分)与文档处理(75.41 分)得分偏低,为当前参评产品的共性薄弱环节。


摘要3:高稳定性产品与高综合能力高度重合,尾部产品波动显著

KimiClaw 以 3.43 分极差表现最稳定,MiMoClaw、DuClaw 等亦属高稳定梯队;MaxClaw 极差达 28.22 分,尾部产品在稳定性与综合能力方面均有待提升。
# 基准介绍

(一)场景设计

SC-WeClaw 测评基准的任务设计严格遵循微信 ClawBot 真实私聊场景的能力需求,覆盖从基础办公到高阶分析的完整链路。测评维度聚焦于文档处理、数据分析、内容创作、代码开发信息检索与整理五大核心能力域,并下设二十余项细分任务指标,全面量化了 Agent 在统一交互场景下的真实表现。五大场景设计为:

文档处理:重点考察模型对多格式、长文本专业资料的深度理解与关键信息提取能力,典型任务包括多格式文档的信息整合、行业报告摘要生成以及技术文档调研

数据分析:模拟业务人员真实工作流,涵盖 Excel 数据清洗、多文件合并、数据透视表生成,以及基于 PDF 报表的指标提取与竞品分析报告撰写,全面检验模型对结构化与非结构化数据的逻辑运算及商业洞察力。

内容创作:聚焦于办公效率与文本生成质量,包含商务邮件撰写、日程事件创建、博客文章生成、风格化改写及个性化回复调整等高频应用任务。

代码开发:要求模型具备辅助编程的实操能力,包括 Python 数据处理脚本编写、文件批量处理以及完整的项目初始化创建。

信息检索与整理:独立评测模型联网获取实时信息、筛选有效信源并整合生成报道的综合响应水平。

详细场景维度和任务如下:

(二)测评流程及评估方法

SC-WeClaw测评采用每个云产品连接微信ClawBot获取答案和自动化评估的方式,确保评估结果真实反映各产品连接微信ClawBot后的实际能力。

1. 自主设计测评任务

我们根据5大维度(文档处理、数据分析、内容创作、代码开发、信息检索与整理)的任务场景,自主设计详细的测评题目和明确的输出要求。

每道题目都附带:

  • 完整的任务描述

  • 明确的输入文件

  • 具体的输出格式要求

  • 详细的评分标准

2. 获取产品答案

将同一套题目提交给各参测产品,记录其实际输出作为"产品答案"。

为了避免单次测试的偶然性误差,确保测评结果的稳定性和可信度,我们对每个参测产品的每一项任务都进行了三次独立重复测评,全程严格控制变量:

  • 所有测评环境保持完全一致;

  • 每一次测评都重新向产品提交完整任务指令,全程独立记录产品的执行过程和输出结果,不同轮次测试互不干扰;

  • 三次测评全部完成后,收集该产品对应任务的三组输出结果,统一进入后续评分环节。

3. 评分方法

本次SC-WeClaw测评采用三层评分架构,包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明:

(1)自动化脚本评估

该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时,采用预设的Python脚本自动检查模型输出。

评分标准:采用0/1二分制。

- 1分:脚本验证全部通过,所有检查点均符合预期,任务判定为成功。

- 0分:脚本验证失败,任一检查点未通过(如文件缺失、日期错误、格式不符等),任务判定为失败。

(2)大模型评估

该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务,引入能力强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。裁判模型将依据以下材料进行打分:

- 原始任务指令(如“撰写一篇关于可再生能源未来发展的博客文章,要求论点清晰、论据充分”);

- 待评测模型生成的结果;

- 详细的评分细则(如“论点清晰度(1-5分)”“论据充分性与相关性(1-5分)”“文章结构逻辑性(1-5分)”“见解独特性(1-5分)”等)。

评分标准:采用1-5分制。裁判模型严格按照细则对多个维度分别打分,最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。

(3)混合评估

该机制适用于复杂综合题的评分,此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制,对任务的客观部分和主观部分分别评分,并按预设权重计算最终得分。 工作机制:

第一步:自动化检查客观部分。例如,任务要求“搜索过去一周关于 AI 芯片的5条重要新闻,并整理成简报”,脚本首先自动验证:是否输出5条新闻?每条新闻的发布时间是否均在近一周内?客观部分根据验证结果给予0或1分。

第二步:大模型评审主观部分。无论客观检查是否通过,均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度,并给出 1-5 分的评分。 评分标准:最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设,并在评分规则中明确说明。若客观检查失败(得0分),则即使主观得分较高,最终加权得分也会受到相应影响。此种机制体现了在实际应用中,“做对”与“做好”均对整体表现有贡献,但两者的重要性可能因任务而异。

总结而言,通过上述三种分数设定,构建了一个涵盖硬性指标(非对即错)、软性指标(好坏优劣)以及综合指标(客观与主观相结合)的全方位评价体系。由此得出的成功率、响应速度与成本等指标,能够更真实地反映各个Claw产品在实际工作场景中的执行能力。

4. 最终统分

针对每个产品每个任务的3次独立测评结果,我们采用如下规则计算最终得分,兼顾能力准确性和执行稳定性:

  • 首先对3次测评结果分别按照对应评分机制(自动化脚本评估/大模型评估/混合评估)独立打分,得到3个单次得分;

  • 最终任务得分为3次单次得分的算术平均值(结果保留2位小数);

  • 若某产品在某一任务中3次全部执行失败,该任务最终得分为0分;若仅1-2次执行失败,仍按实际得分取平均,客观反映产品的稳定性表现。

通过三次测试取平均的方式,既能够过滤单次执行的偶发错误、网络波动等非产品能力因素的干扰,也能够真实反映产品的任务执行稳定性,让最终得分更贴近产品在实际使用中的真实表现水平。

# 参评产品

本次SC-WeClaw云Claw产品接入微信测评共有10款主流产品参测,具体测评产品详情如下图所示:

# 测评总榜

一、三次测评平均分榜单

二、第一次测评榜单

三、第二次测评榜单

四、第三次测评榜单

# 测评分析及结论

一、总分排名格局:集群内得分收敛,集群间梯度过渡与断层并存

从任务总分对比排名看,10 款参评模型的总分表现呈现出清晰的三级集群分布特征。高得分集群(≥85 分)中,MiMoClaw 以 89.29 分居首,KimiClaw(86.76 分)、AutoClaw(86.61 分)与 QClaw(85.50 分)构成第一梯队,集群内部最大分差在 3.8 分以内,得分分布相对紧凑。中得分集群(78–82 分)由 DuClaw(81.94 分)领头,StepClaw(79.93 分)、ArkClaw-Pro(79.48 分)与 WorkBuddy(78.73 分)并列,内部最大分差约 3.2 分,同群表现亦具较强一致性。高得分集群与中得分集群之间构成相邻能力台阶的过渡关系,能力梯度平缓。相比之下,由 CoPaw(68.21 分)与 MaxClaw(67.30 分)构成的低得分集群,与中得分集群之间出现了超过 10 分的巨大落差,构成了明确的能力边界与显著断层。整体得分结构表现为:头部集群内部收敛、中腰部梯次过渡、尾部能力断崖式衰减的非对称格局。

二、能力分化显著,内容创作领跑而深度推理能力待补强

从 SC-WeClaw 五大维度平均分来看,参评产品的能力布局呈现“长板突出、短板集中”的结构化特征。内容创作以 89.48 分构成绝对优势长板,表明通用文本生成场景已具备成熟能力。代码开发(79.20 分)与信息检索(78.67 分)处于中等区间,构成专业任务支撑底盘。文档处理(75.41 分)与数据分析(72.91 分)则形成明显能力洼地,尤以数据分析短板最为突出。

三、稳定性分析:极差分层显著,高综合能力模型同步具备更优输出稳定性

本次 SC-WeClaw 测评以三轮测试得分的极差衡量模型输出稳定性。KimiClaw 以 3.43 分的最低极差位居高稳定梯队之首,StepClaw、MiMoClaw、DuClaw 紧随其后,其中 MiMoClaw、KimiClaw 同时位列总分头部,兼具高表现与高稳定性。ArkClaw-Pro、QClaw、AutoClaw 稳定性居中,尚有优化空间。CoPaw、WorkBuddy、MaxClaw 稳定性偏弱,MaxClaw 极差高达 28.22 分,波动显著,服务一致性存疑。整体上,综合能力领先的头部模型稳定性更优,尾部模型则面临能力与稳定性的双重短板。本结论仅反映 SC-WeClaw 标准化场景下的三轮测评表现。

# 示例展示

对比示例

【任务类型】:文档处理

【题目】:

你现在是企业的智能办公助手,需要处理以下三份项目相关文件:

会议记录:《智能办公系统项目会议记录》(D6_meeting_notes.docx),包含三次项目会议的讨论要点、决议和进度

合同文件:《软件开发服务合同》(D6_contract.pdf),甲乙双方签署的正式软件开发服务合同,包含所有商务和法律条款

财务数据:《项目财务流水表》(D6_financial_data.xlsx),包含项目从2026年5月到10月的所有收支明细

请基于以上三份文件的内容回答以下问题,回答要求:

所有答案必须有明确的文件依据,不得编造信息

需要计算的问题请给出计算过程

跨文档关联的问题请说明信息来源对应的文件

涉及法律或合同条款的问题请引用具体条款编号

问题:结合会议记录、合同文件、财务数据三份材料,请分析:

1.甲方提出的新增「智能客服模块」需求是否符合合同约定的变更流程?

2.乙方收取15万元变更费用是否合法合规?请说明具体依据。

3.该需求变更对项目最终整体利润率的影响是多少(需给出计算过程,保留两位小数)

以上问题答案输出到D6_answer.docx文件,每个问题的完整原文作为Word一级标题,每个问题的答案写在对应标题下方。

D6_meeting_notes.docx、D6_contract.pdf、D6_financial_data.xlsx其中会议记录和合同文件内容过长只展示部分内容:

D6_meeting_notes.docx

D6_contract.pdf

D6_financial_data.xlsx

【评分点介绍】:

本题由自动化脚本和大模型二者混合进行评价,自动化脚本评价与大模型评价的权重为1:9,其中自动化脚本设计一个得分点,得分设计5个维度,

格式完全符合得1分:

  • 正好有 3 个一级标题 Heading 1
  • 这 3 个一级标题按顺序与题目原文完全一致
  • 每个一级标题下面都有对应答案内容
格式基本符合得0.75分:
  • 至少有 3 个一级标题
  • 其中至少 2 个一级标题和标准题目完全匹配
  • 3 个标题下面都有内容
格式标题不规范,但还能看出答了 3 题得0.5分:
  • 正文里能识别出 3 个问题的关键词
  • 并且文档里至少有一些标题结构
  • 但一级标题没有按标准题目原文来写
格式标题更弱,只能部分看出结构得0.25分:
  • 至少命中 1 组问题关键词,或者
  • 至少有标题
  • 但离标准格式差得比较远
格式完全不符合得0分:
  • 没识别到题目关键词
  • 也几乎没有标题结构
  • 脚本无法判断是按要求组织的答案
{"format_compliance_score": 格式判断得分"script_score_normalized": 汇总得分}
大模型评分细则如下:
## 核心评分原则1. **硬性校验优先**:关键合同条款引用错误、核心财务计算错误、核心事实判断错误直接按对应档位扣分,不考虑其他因素酌情加分。2. **五档评分规则**:每个维度仅使用 `1.0 / 0.75 / 0.5 / 0.25 / 0` 五个档位评分,加权计算总分。3. **不重复扣分**:同一错误仅在对应维度扣一次,不跨维度重复处罚。4. **明确校验依据**:所有评分均以三份原始文件和要求的标准答案为唯一依据,不得主观臆断。---### Criterion 1: 任务完成度与要求覆盖度 (Weight: 20%)评估是否完整回答了三个问题,无遗漏、无跑题。- **Score 1.0**: 完整回答全部3个问题,每个问题都有明确结论,无内容遗漏。- **Score 0.75**: 基本覆盖3个问题,但其中1个问题的回答内容明显单薄、关键信息缺失。- **Score 0.5**: 仅回答了2个问题,遗漏1个问题。- **Score 0.25**: 仅回答了1个问题,遗漏2个及以上问题。- **Score 0.0**: 完全未回答问题,或内容与题目要求完全无关。---### Criterion 2: 关键条款与事实准确性 (Weight: 30%)核心考核合同条款引用、事实判断的正确性,是专业能力核心评价项。**硬性校验点**:- 第一问必须引用合同第6条的6.1/6.2/6.3款,且关联第三次会议记录内容,结论为「符合变更流程」- 第二问必须引用合同第6.4条,明确对比「15万变更费 > 合同总额5%(4.9万元)」,关联第三次会议内容,结论为「收费合法合规」- **Score 1.0**: 完全满足所有校验点:条款引用完整准确、关联第三次会议内容、判断结论正确、15万与4.9万的对比逻辑清晰。- **Score 0.75**: 核心判断正确,但缺少1个次要校验点,例如未明确写4.9万的计算过程,或漏写1个条款编号。- **Score 0.5**: 存在1个核心错误,例如未关联第三次会议内容,或结论正确但未引用对应条款。- **Score 0.25**: 存在2个及以上核心错误,例如条款引用混乱、结论判断错误(如认为收费不合规)。- **Score 0.0**: 完全未引用合同条款,事实判断完全错误,或编造不存在的条款内容。---### Criterion 3: 财务计算准确性 (Weight: 25%)考核第三问的计算过程与结果准确性,标准答案为:> 变动前利润率:`-54.59%`;变动后利润率:`-34.07%`;利润率提升:`20.52个百分点`(均保留两位小数)- **Score 1.0**: 计算过程完整清晰,三个数值完全准确(误差≤0.1个百分点),且保留两位小数。- **Score 0.75**: 计算过程完整,仅最终提升百分点存在微小误差(误差≤0.5个百分点),或未保留两位小数但数值正确。- **Score 0.5**: 有计算过程,但3个数值中错1个,或过程有瑕疵但结果接近正确值。- **Score 0.25**: 仅有最终结果无计算过程,或3个数值中错2个及以上。- **Score 0.0**: 完全无计算过程,或结果与标准答案偏差超过10个百分点。---### Criterion 4: 依据充分性与规范度 (Weight: 15%)考核回答是否符合答题规范:所有结论有明确文件依据,跨文档关联标注来源,条款引用规范。- **Score 1.0**: 所有结论都明确标注依据来源,合同条款编号正确,跨文档内容说明对应的文件(如「根据第三次会议记录」「根据合同第6.4条」「根据财务流水表」)。- **Score 0.75**: 大部分结论有依据,仅个别结论未标注来源,但整体规范。- **Score 0.5**: 仅部分结论有依据,未明确标注信息来源。- **Score 0.25**: 基本无依据标注,仅输出结论,未说明信息来源。- **Score 0.0**: 存在编造信息、无中生有的内容,或完全没有任何依据说明。
KimiClaw的答案】:
【对KimiClaw的评价结果】:
脚本评分:{"format_compliance_score": 0.5,"script_score_normalized": 0.5,}大模型评分:{"task_completion_score": 1.0,"clause_fact_accuracy_score": 1.0,"financial_accuracy_score": 1.0,"evidence_norm_score": 1.0,"reasoning": "回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论;财务计算过程清晰,三个利润率数值完全准确;依据标注规范。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 1.0, \"financial_accuracy_score\": 1.0, \"evidence_norm_score\": 1.0, \"reasoning\": \"回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论;财务计算过程清晰,三个利润率数值完全准确;依据标注规范。\"}","llm_score_normalized": 1.0}加权汇总:{"total_score": 0.1*0.5+0.9*1.0=0.95}
【MaxClaw的答案】:
【对MaxClaw的评价结果】:
脚本评价: {"format_compliance_score": 0.25,"script_score_normalized": 0.25,}大模型评价:         {"task_completion_score": 1.0,"clause_fact_accuracy_score": 0.25,"financial_accuracy_score": 0.25,"evidence_norm_score": 0.5,"reasoning": "完整回答三问;未引用具体合同条款且缺失核心金额对比逻辑;财务总成本计算遗漏导致三个数值全错;依据标注缺失具体条款号。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 0.25, \"financial_accuracy_score\": 0.25, \"evidence_norm_score\": 0.5, \"reasoning\": \"完整回答三问;未引用具体合同条款且缺失核心金额对比逻辑;财务总成本计算遗漏导致三个数值全错;依据标注缺失具体条款号。\"}","llm_score_normalized": 0.45833333333333337}加权汇总:{"total_score": 0.1*0.25+0.9*0.4583=0.4375}
评分说明:KimiClaw因标题使用了问题一、二、三与问题原格式1、2、3不符,因此自动化脚本评价扣0.5分。MaxClaw因标题并未使用一级标题形式,使用的是正文格式,且使用了大写的一、二、三与问题原格式1、2、3不符因此自动化脚本评价得分0.25,且未引用具体合同条款且缺失核心金额对比逻辑;财务总成本计算遗漏导致三个数值全错;依据标注缺失具体条款号,因此得分0.4583分。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询