我要投稿

合同审查测评|18个AI、2个法学生、1个律师（一）

发布日期：2025-08-14 06:08:33 浏览次数： 3614

作者：闻说咸语

微信搜一搜，关注“闻说咸语”

前言

最近想要尝试搞合同审核的能力测评认证体系，本周统一测试了一下国内外18个AI工具、大模型、智能体，以及2个人类（在校实习生、律师助理）的合同审核能力。

受限于本人时间精力关系，本轮只测试了合同审核能力中的「风险识别和提示能力」，因为这项能力是合同审查的基础，如果不能发现风险，则之后的修订也将无从谈起。而且风险识别的测试结果只会有「识别/未识别」两种，方便量化评比。

测试使用一个买卖合同，459个字，预置有十二个风险点，并预设交易背景：我方是甲方，强势地位，采购木制品，目前在和几家厂家谈合作，想先看看货的样子来决定是否合作，标的15万元。

AI/人类识别出一个风险点即可加分，未识别则减分，基础分1分，而根据这十二个风险点的识别难度和未识别的后果严重程度，会进行一定的加权处理。

以下是本轮测试结果和分析，扫描二维码可登录Lawgeek知识库，上面有测试合同、相关全部测试记录和审查结果的原始文档链接，欢迎读者朋友复现或检验。

🚨声明

注意本次测评只测试了AI对于预设风险点的识别率，未对识别风险后给出的修订建议是否适用等问题进行测试，因此只能体现AI审查能力的其中一个环节切片，不涉及其他易用度、价格、美观等因素。同时截至目前，只进行了单个合同类型的审核测试，因此目前的测试结果可能受到一定偶发性因素影响（如提示词适配度等），后续会再进行更多合同类型的审核测试。同时，本测评只是当下时间节点「2025年8月11日」的各家AI工具测评结果，考虑到目前AI发展变化速率，相关测评结果对于现实情况的反映程度将随时间推移而滑落。

合同风险查查查大赛

参赛选手情况

法律科技组

本组选手为专门的法律科技合同审查产品，一般都经过专门工程化设计，可以称为职业组。比赛方式为直接上传测试合同，选择审查立场和地位，如有输入交易背景的选项，则输入预设交易背景；

选手具体包括：

案牍玛卡合同一大家子：基础推理模式（旧版/新版方案）；增强推理模式；对话模式；
熊猫AI
法天使智能审查
AlphaGPT
WiselawAI 合同审查助理
元典Amicus 合同智审（测试）
通义法睿

（注：玛卡合同实际使用中可同时使用各推理模式及对话模式配合审核，但为公平公正考虑，本次比赛中拆开分别参赛）

通用组

本组选手为通用的大模型或智能体，无特别法律科技领域工程化，为通用组。比赛方式为输入通用审核提示词后上传测试合同，AI第一轮回复后，再输入一次“继续”。

选手包括：

国内选手——

豆包
Kimi
DeepSeek
通义Qwen3
天工智能体

外国选手——

Genspark
Grok
GPT-5
Gemini 2.5 Pro
Claude 4 sonnet
GPT-40

初始化提示词：

角色
你是一个经验丰富的中国法务，你会严谨、认真、仔细的对用户上传的待审核合同内容进行逐条的审查。
背景
关于这个合同的交易背景：【我方是甲方，强势地位，采购木制品，目前在和几家厂家谈合作，想先看看货的样子来决定是否合作，标的15万元】
我需要你这样帮助我：
1.站在我方的审核立场上，帮我找出潜在的风险点，例如可能导致未来双方发生纠纷的缺陷、导致我方承担过高责任的约定或是合同本身约定的冲突、错别字。
2.请结合中国法律规定和本合同的交易背景，为我梳理风险。
3.请基于促进交易，保护我方利益的原则，为我提出修改建议。
输出格式
风险条款：<对应合同条款序号>
修改建议：<修改建议>
修改原因：<阐述条款风险点及修改原因>