我要投稿

微信接入Claw类产品哪家强？SC-WeClaw首测：MiMoClaw夺冠

发布日期：2026-04-27 15:09:34 浏览次数： 1520

作者：CLUE中文语言理解测评基准

微信搜一搜，关注“CLUE中文语言理解测评基准”

# 测评背景

随着各家 Claw 产品陆续接入微信 ClawBot，同一对话界面下的能力差异开始显现。SC-WeClaw 是首个针对 Claw 产品接入微信场景的专项测评基准，聚焦私聊环境下的真实交互表现，综合运用自动化脚本与大模型评估，对五大核心能力维度实施独立量化测评，为用户选型与厂商迭代提供客观参照。

SC-WeClaw测评方案文章详见：微信接入的龙虾怎么测？SC-WeClaw场景测评方案发布！

SuperCLUE-XClaw国产龙虾Claw产品测评基准文章详见：国产龙虾Claw产品首测：10款产品真实测评

# SC-WeClaw榜单概览

1. 总分对比

2. 五大维度对比

SC-WeClaw测评摘要

摘要1：头部集群内部收敛，尾部能力断层显著

MiMoClaw 以 89.29 分领跑总分榜，KimiClaw、AutoClaw、QClaw 紧随其后构成高分段集群；DuClaw 等居中，CoPaw、MaxClaw 与前列分差逾 10 分，尾部断层显著。

摘要2：内容创作优势稳固，数据分析与文档处理仍存短板
内容创作以 89.48 分构成绝对优势长板，通用文本生成能力已趋成熟。代码开发（79.20 分）与信息检索（78.67 分）处于中等区间，构成专业任务支撑底盘。数据分析（72.91 分）与文档处理（75.41 分）得分偏低，为当前参评产品的共性薄弱环节。

摘要3：高稳定性产品与高综合能力高度重合，尾部产品波动显著
KimiClaw 以 3.43 分极差表现最稳定，MiMoClaw、DuClaw 等亦属高稳定梯队；MaxClaw 极差达 28.22 分，尾部产品在稳定性与综合能力方面均有待提升。

# 基准介绍

（一）场景设计
SC-WeClaw 测评基准的任务设计严格遵循微信 ClawBot 真实私聊场景的能力需求，覆盖从基础办公到高阶分析的完整链路。测评维度聚焦于文档处理、数据分析、内容创作、代码开发及信息检索与整理五大核心能力域，并下设二十余项细分任务指标，全面量化了 Agent 在统一交互场景下的真实表现。五大场景设计为：

文档处理：重点考察模型对多格式、长文本专业资料的深度理解与关键信息提取能力，典型任务包括多格式文档的信息整合、行业报告摘要生成以及技术文档调研。

数据分析：模拟业务人员真实工作流，涵盖 Excel 数据清洗、多文件合并、数据透视表生成，以及基于 PDF 报表的指标提取与竞品分析报告撰写，全面检验模型对结构化与非结构化数据的逻辑运算及商业洞察力。

内容创作：聚焦于办公效率与文本生成质量，包含商务邮件撰写、日程事件创建、博客文章生成、风格化改写及个性化回复调整等高频应用任务。

代码开发：要求模型具备辅助编程的实操能力，包括 Python 数据处理脚本编写、文件批量处理以及完整的项目初始化创建。

信息检索与整理：独立评测模型联网获取实时信息、筛选有效信源并整合生成报道的综合响应水平。

详细场景维度和任务如下：

（二）测评流程及评估方法

SC-WeClaw测评采用每个云产品连接微信ClawBot获取答案和自动化评估的方式，确保评估结果真实反映各产品连接微信ClawBot后的实际能力。

1. 自主设计测评任务

我们根据5大维度（文档处理、数据分析、内容创作、代码开发、信息检索与整理）的任务场景，自主设计详细的测评题目和明确的输出要求。

每道题目都附带：

完整的任务描述
明确的输入文件
具体的输出格式要求
详细的评分标准

2. 获取产品答案

将同一套题目提交给各参测产品，记录其实际输出作为"产品答案"。

为了避免单次测试的偶然性误差，确保测评结果的稳定性和可信度，我们对每个参测产品的每一项任务都进行了三次独立重复测评，全程严格控制变量：

所有测评环境保持完全一致；

每一次测评都重新向产品提交完整任务指令，全程独立记录产品的执行过程和输出结果，不同轮次测试互不干扰；
三次测评全部完成后，收集该产品对应任务的三组输出结果，统一进入后续评分环节。

3. 评分方法

本次SC-WeClaw测评采用三层评分架构，包括自动化脚本评估、大模型评估以及两者的混合评估。以下对各层机制进行详细说明：

（1）自动化脚本评估

该机制适用于客观题的评分。当任务结果能够通过明确且无歧义的标准进行验证时，采用预设的Python脚本自动检查模型输出。

评分标准：采用0/1二分制。

- 1分：脚本验证全部通过，所有检查点均符合预期，任务判定为成功。

- 0分：脚本验证失败，任一检查点未通过（如文件缺失、日期错误、格式不符等），任务判定为失败。

（2）大模型评估

该机制适用于主观题的评分。对于涉及内容质量、逻辑深度、创造性等难以量化的任务，引入能力强大的大语言模型（Gemini-3.1-Pro-Preview）作为评审员。裁判模型将依据以下材料进行打分：

- 原始任务指令（如“撰写一篇关于可再生能源未来发展的博客文章，要求论点清晰、论据充分”）；

- 待评测模型生成的结果；

- 详细的评分细则（如“论点清晰度（1-5分）”“论据充分性与相关性（1-5分）”“文章结构逻辑性（1-5分）”“见解独特性（1-5分）”等）。

评分标准：采用1-5分制。裁判模型严格按照细则对多个维度分别打分，最终得分为各维度分数的平均值。此机制能够更精细地反映模型在复杂任务上的表现差异。

（3）混合评估

该机制适用于复杂综合题的评分，此类任务通常同时包含可客观验证的步骤和需要主观评判的内容。混合评估综合运用前两种机制，对任务的客观部分和主观部分分别评分，并按预设权重计算最终得分。工作机制：

第一步：自动化检查客观部分。例如，任务要求“搜索过去一周关于 AI 芯片的5条重要新闻，并整理成简报”，脚本首先自动验证：是否输出5条新闻？每条新闻的发布时间是否均在近一周内？客观部分根据验证结果给予0或1分。

第二步：大模型评审主观部分。无论客观检查是否通过，均进行主观评审。由 AI 裁判评估新闻的重要性、摘要的准确性与清晰度、简报排版与可读性等维度，并给出 1-5 分的评分。评分标准：最终得分为客观部分得分与主观部分得分的加权组合。权重根据任务性质预设，并在评分规则中明确说明。若客观检查失败（得0分），则即使主观得分较高，最终加权得分也会受到相应影响。此种机制体现了在实际应用中，“做对”与“做好”均对整体表现有贡献，但两者的重要性可能因任务而异。

总结而言，通过上述三种分数设定，构建了一个涵盖硬性指标（非对即错）、软性指标（好坏优劣）以及综合指标（客观与主观相结合）的全方位评价体系。由此得出的成功率、响应速度与成本等指标，能够更真实地反映各个Claw产品在实际工作场景中的执行能力。

4. 最终统分

针对每个产品每个任务的3次独立测评结果，我们采用如下规则计算最终得分，兼顾能力准确性和执行稳定性：

首先对3次测评结果分别按照对应评分机制（自动化脚本评估/大模型评估/混合评估）独立打分，得到3个单次得分；
最终任务得分为3次单次得分的算术平均值（结果保留2位小数）；
若某产品在某一任务中3次全部执行失败，该任务最终得分为0分；若仅1-2次执行失败，仍按实际得分取平均，客观反映产品的稳定性表现。

通过三次测试取平均的方式，既能够过滤单次执行的偶发错误、网络波动等非产品能力因素的干扰，也能够真实反映产品的任务执行稳定性，让最终得分更贴近产品在实际使用中的真实表现水平。

# 参评产品

本次SC-WeClaw云Claw产品接入微信测评共有10款主流产品参测，具体测评产品详情如下图所示：

# 测评总榜

一、三次测评平均分榜单

二、第一次测评榜单

三、第二次测评榜单

四、第三次测评榜单

# 测评分析及结论

一、总分排名格局：集群内得分收敛，集群间梯度过渡与断层并存

从任务总分对比排名看，10 款参评模型的总分表现呈现出清晰的三级集群分布特征。高得分集群（≥85 分）中，MiMoClaw 以 89.29 分居首，KimiClaw（86.76 分）、AutoClaw（86.61 分）与 QClaw（85.50 分）构成第一梯队，集群内部最大分差在 3.8 分以内，得分分布相对紧凑。中得分集群（78–82 分）由 DuClaw（81.94 分）领头，StepClaw（79.93 分）、ArkClaw-Pro（79.48 分）与 WorkBuddy（78.73 分）并列，内部最大分差约 3.2 分，同群表现亦具较强一致性。高得分集群与中得分集群之间构成相邻能力台阶的过渡关系，能力梯度平缓。相比之下，由 CoPaw（68.21 分）与 MaxClaw（67.30 分）构成的低得分集群，与中得分集群之间出现了超过 10 分的巨大落差，构成了明确的能力边界与显著断层。整体得分结构表现为：头部集群内部收敛、中腰部梯次过渡、尾部能力断崖式衰减的非对称格局。

二、能力分化显著，内容创作领跑而深度推理能力待补强

从 SC-WeClaw 五大维度平均分来看，参评产品的能力布局呈现“长板突出、短板集中”的结构化特征。内容创作以 89.48 分构成绝对优势长板，表明通用文本生成场景已具备成熟能力。代码开发（79.20 分）与信息检索（78.67 分）处于中等区间，构成专业任务支撑底盘。文档处理（75.41 分）与数据分析（72.91 分）则形成明显能力洼地，尤以数据分析短板最为突出。

三、稳定性分析：极差分层显著，高综合能力模型同步具备更优输出稳定性

本次 SC-WeClaw 测评以三轮测试得分的极差衡量模型输出稳定性。KimiClaw 以 3.43 分的最低极差位居高稳定梯队之首，StepClaw、MiMoClaw、DuClaw 紧随其后，其中 MiMoClaw、KimiClaw 同时位列总分头部，兼具高表现与高稳定性。ArkClaw-Pro、QClaw、AutoClaw 稳定性居中，尚有优化空间。CoPaw、WorkBuddy、MaxClaw 稳定性偏弱，MaxClaw 极差高达 28.22 分，波动显著，服务一致性存疑。整体上，综合能力领先的头部模型稳定性更优，尾部模型则面临能力与稳定性的双重短板。本结论仅反映 SC-WeClaw 标准化场景下的三轮测评表现。

# 示例展示

对比示例

【任务类型】：文档处理

【题目】：

你现在是企业的智能办公助手，需要处理以下三份项目相关文件：

会议记录：《智能办公系统项目会议记录》（D6_meeting_notes.docx），包含三次项目会议的讨论要点、决议和进度

合同文件：《软件开发服务合同》（D6_contract.pdf），甲乙双方签署的正式软件开发服务合同，包含所有商务和法律条款

财务数据：《项目财务流水表》（D6_financial_data.xlsx），包含项目从2026年5月到10月的所有收支明细

请基于以上三份文件的内容回答以下问题，回答要求：

所有答案必须有明确的文件依据，不得编造信息

需要计算的问题请给出计算过程

跨文档关联的问题请说明信息来源对应的文件

涉及法律或合同条款的问题请引用具体条款编号

问题：结合会议记录、合同文件、财务数据三份材料，请分析：

1.甲方提出的新增「智能客服模块」需求是否符合合同约定的变更流程？

2.乙方收取15万元变更费用是否合法合规？请说明具体依据。

3.该需求变更对项目最终整体利润率的影响是多少（需给出计算过程，保留两位小数）

以上问题答案输出到D6_answer.docx文件，每个问题的完整原文作为Word一级标题，每个问题的答案写在对应标题下方。

D6_meeting_notes.docx、D6_contract.pdf、D6_financial_data.xlsx其中会议记录和合同文件内容过长只展示部分内容：

D6_meeting_notes.docx

D6_contract.pdf

D6_financial_data.xlsx

【评分点介绍】：

本题由自动化脚本和大模型二者混合进行评价，自动化脚本评价与大模型评价的权重为1：9，其中自动化脚本设计一个得分点，得分设计5个维度，

格式完全符合得1分：

正好有 3 个一级标题 Heading 1
这 3 个一级标题按顺序与题目原文完全一致
每个一级标题下面都有对应答案内容

格式基本符合得0.75分：

至少有 3 个一级标题
其中至少 2 个一级标题和标准题目完全匹配
3 个标题下面都有内容

格式标题不规范，但还能看出答了 3 题得0.5分：

正文里能识别出 3 个问题的关键词
并且文档里至少有一些标题结构
但一级标题没有按标准题目原文来写

格式标题更弱，只能部分看出结构得0.25分：

至少命中 1 组问题关键词，或者
至少有标题
但离标准格式差得比较远

格式完全不符合得0分：

没识别到题目关键词
也几乎没有标题结构
脚本无法判断是按要求组织的答案

{"format_compliance_score": 格式判断得分"script_score_normalized": 汇总得分}

大模型评分细则如下：

## 核心评分原则1. **硬性校验优先**：关键合同条款引用错误、核心财务计算错误、核心事实判断错误直接按对应档位扣分，不考虑其他因素酌情加分。2. **五档评分规则**：每个维度仅使用 `1.0 / 0.75 / 0.5 / 0.25 / 0` 五个档位评分，加权计算总分。3. **不重复扣分**：同一错误仅在对应维度扣一次，不跨维度重复处罚。4. **明确校验依据**：所有评分均以三份原始文件和要求的标准答案为唯一依据，不得主观臆断。---### Criterion 1: 任务完成度与要求覆盖度 (Weight: 20%)评估是否完整回答了三个问题，无遗漏、无跑题。- **Score 1.0**: 完整回答全部3个问题，每个问题都有明确结论，无内容遗漏。- **Score 0.75**: 基本覆盖3个问题，但其中1个问题的回答内容明显单薄、关键信息缺失。- **Score 0.5**: 仅回答了2个问题，遗漏1个问题。- **Score 0.25**: 仅回答了1个问题，遗漏2个及以上问题。- **Score 0.0**: 完全未回答问题，或内容与题目要求完全无关。---### Criterion 2: 关键条款与事实准确性 (Weight: 30%)核心考核合同条款引用、事实判断的正确性，是专业能力核心评价项。**硬性校验点**：- 第一问必须引用合同第6条的6.1/6.2/6.3款，且关联第三次会议记录内容，结论为「符合变更流程」- 第二问必须引用合同第6.4条，明确对比「15万变更费 > 合同总额5%（4.9万元）」，关联第三次会议内容，结论为「收费合法合规」- **Score 1.0**: 完全满足所有校验点：条款引用完整准确、关联第三次会议内容、判断结论正确、15万与4.9万的对比逻辑清晰。- **Score 0.75**: 核心判断正确，但缺少1个次要校验点，例如未明确写4.9万的计算过程，或漏写1个条款编号。- **Score 0.5**: 存在1个核心错误，例如未关联第三次会议内容，或结论正确但未引用对应条款。- **Score 0.25**: 存在2个及以上核心错误，例如条款引用混乱、结论判断错误（如认为收费不合规）。- **Score 0.0**: 完全未引用合同条款，事实判断完全错误，或编造不存在的条款内容。---### Criterion 3: 财务计算准确性 (Weight: 25%)考核第三问的计算过程与结果准确性，标准答案为：> 变动前利润率：`-54.59%`；变动后利润率：`-34.07%`；利润率提升：`20.52个百分点`（均保留两位小数）- **Score 1.0**: 计算过程完整清晰，三个数值完全准确（误差≤0.1个百分点），且保留两位小数。- **Score 0.75**: 计算过程完整，仅最终提升百分点存在微小误差（误差≤0.5个百分点），或未保留两位小数但数值正确。- **Score 0.5**: 有计算过程，但3个数值中错1个，或过程有瑕疵但结果接近正确值。- **Score 0.25**: 仅有最终结果无计算过程，或3个数值中错2个及以上。- **Score 0.0**: 完全无计算过程，或结果与标准答案偏差超过10个百分点。---### Criterion 4: 依据充分性与规范度 (Weight: 15%)考核回答是否符合答题规范：所有结论有明确文件依据，跨文档关联标注来源，条款引用规范。- **Score 1.0**: 所有结论都明确标注依据来源，合同条款编号正确，跨文档内容说明对应的文件（如「根据第三次会议记录」「根据合同第6.4条」「根据财务流水表」）。- **Score 0.75**: 大部分结论有依据，仅个别结论未标注来源，但整体规范。- **Score 0.5**: 仅部分结论有依据，未明确标注信息来源。- **Score 0.25**: 基本无依据标注，仅输出结论，未说明信息来源。- **Score 0.0**: 存在编造信息、无中生有的内容，或完全没有任何依据说明。

【KimiClaw的答案】：

【对KimiClaw的评价结果】：

脚本评分：{"format_compliance_score": 0.5,"script_score_normalized": 0.5,}大模型评分：{"task_completion_score": 1.0,"clause_fact_accuracy_score": 1.0,"financial_accuracy_score": 1.0,"evidence_norm_score": 1.0,"reasoning": "回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论；财务计算过程清晰，三个利润率数值完全准确；依据标注规范。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 1.0, \"financial_accuracy_score\": 1.0, \"evidence_norm_score\": 1.0, \"reasoning\": \"回答完整覆盖三个问题。准确引用6.1-6.4条款并结合会议记录得出正确结论；财务计算过程清晰，三个利润率数值完全准确；依据标注规范。\"}","llm_score_normalized": 1.0}加权汇总：{"total_score": 0.1*0.5+0.9*1.0=0.95}

【MaxClaw的答案】：

【对MaxClaw的评价结果】：

脚本评价： {"format_compliance_score": 0.25,"script_score_normalized": 0.25,}大模型评价：         {"task_completion_score": 1.0,"clause_fact_accuracy_score": 0.25,"financial_accuracy_score": 0.25,"evidence_norm_score": 0.5,"reasoning": "完整回答三问；未引用具体合同条款且缺失核心金额对比逻辑；财务总成本计算遗漏导致三个数值全错；依据标注缺失具体条款号。","raw_response": "{\"task_completion_score\": 1.0, \"clause_fact_accuracy_score\": 0.25, \"financial_accuracy_score\": 0.25, \"evidence_norm_score\": 0.5, \"reasoning\": \"完整回答三问；未引用具体合同条款且缺失核心金额对比逻辑；财务总成本计算遗漏导致三个数值全错；依据标注缺失具体条款号。\"}","llm_score_normalized": 0.45833333333333337}加权汇总：{"total_score": 0.1*0.25+0.9*0.4583=0.4375}

评分说明：KimiClaw因标题使用了问题一、二、三与问题原格式1、2、3不符，因此自动化脚本评价扣0.5分。MaxClaw因标题并未使用一级标题形式，使用的是正文格式，且使用了大写的一、二、三与问题原格式1、2、3不符因此自动化脚本评价得分0.25，且未引用具体合同条款且缺失核心金额对比逻辑；财务总成本计算遗漏导致三个数值全错；依据标注缺失具体条款号，因此得分0.4583分。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业