免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


合同审查测评|18个AI、2个法学生、1个律师(一)

发布日期:2025-08-14 06:08:33 浏览次数: 1513
作者:闻说咸语

微信搜一搜,关注“闻说咸语”

推荐语

AI合同审查能力大PK:18款工具与人类同台竞技,谁能更胜一筹?

核心内容:
1. 18款AI工具与2名人类在合同风险识别能力上的对比测试
2. 测试方法详解:风险点加权评分体系与标准化评估流程
3. 法律科技专用产品与通用大模型在专业场景下的表现差异

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

前言

最近想要尝试搞合同审核的能力测评认证体系,本周统一测试了一下国内外18个AI工具、大模型、智能体,以及2个人类(在校实习生、律师助理)的合同审核能力。

受限于本人时间精力关系,本轮只测试了合同审核能力中的「风险识别和提示能力」,因为这项能力是合同审查的基础,如果不能发现风险,则之后的修订也将无从谈起。而且风险识别的测试结果只会有「识别/未识别」两种,方便量化评比。

测试使用一个买卖合同,459个字,预置有十二个风险点,并预设交易背景:我方是甲方,强势地位,采购木制品,目前在和几家厂家谈合作,想先看看货的样子来决定是否合作,标的15万元。

AI/人类识别出一个风险点即可加分,未识别则减分,基础分1分,而根据这十二个风险点的识别难度和未识别的后果严重程度,会进行一定的加权处理。

以下是本轮测试结果和分析,扫描二维码可登录Lawgeek知识库,上面有测试合同、相关全部测试记录和审查结果的原始文档链接,欢迎读者朋友复现或检验。

🚨声明

注意本次测评只测试了AI对于预设风险点的识别率,未对识别风险后给出的修订建议是否适用等问题进行测试,因此只能体现AI审查能力的其中一个环节切片,不涉及其他易用度、价格、美观等因素。同时截至目前,只进行了单个合同类型的审核测试,因此目前的测试结果可能受到一定偶发性因素影响(如提示词适配度等),后续会再进行更多合同类型的审核测试。同时,本测评只是当下时间节点「2025年8月11日」的各家AI工具测评结果,考虑到目前AI发展变化速率,相关测评结果对于现实情况的反映程度将随时间推移而滑落。

合同风险查查查大赛

参赛选手情况

法律科技组

本组选手为专门的法律科技合同审查产品,一般都经过专门工程化设计,可以称为职业组。比赛方式为直接上传测试合同,选择审查立场和地位,如有输入交易背景的选项,则输入预设交易背景;

选手具体包括:

  • 案牍玛卡合同一大家子:基础推理模式(旧版/新版方案);增强推理模式;对话模式;
  • 熊猫AI
  • 法天使智能审查
  • AlphaGPT
  • WiselawAI 合同审查助理
  • 元典Amicus 合同智审(测试)
  • 通义法睿

(注:玛卡合同实际使用中可同时使用各推理模式及对话模式配合审核,但为公平公正考虑,本次比赛中拆开分别参赛)

通用组

本组选手为通用的大模型或智能体,无特别法律科技领域工程化,为通用组。比赛方式为输入通用审核提示词后上传测试合同,AI第一轮回复后,再输入一次“继续”。

选手包括:

国内选手——

  • 豆包
  • Kimi
  • DeepSeek
  • 通义Qwen3
  • 天工智能体

外国选手——

  • Genspark
  • Grok
  • GPT-5
  • Gemini 2.5 Pro
  • Claude 4 sonnet
  • GPT-40

初始化提示词:

角色
你是一个经验丰富的中国法务,你会严谨、认真、仔细的对用户上传的待审核合同内容进行逐条的审查。
背景
关于这个合同的交易背景:【我方是甲方,强势地位,采购木制品,目前在和几家厂家谈合作,想先看看货的样子来决定是否合作,标的15万元】
我需要你这样帮助我:
1.站在我方的审核立场上,帮我找出潜在的风险点,例如可能导致未来双方发生纠纷的缺陷、导致我方承担过高责任的约定或是合同本身约定的冲突、错别字。
2.请结合中国法律规定和本合同的交易背景,为我梳理风险。
3.请基于促进交易,保护我方利益的原则,为我提出修改建议。
输出格式
风险条款:<对应合同条款序号>
修改建议:<修改建议>
修改原因:<阐述条款风险点及修改原因>

人类组

本组选手都是人类,比赛方式为告知背景正常审核,过程中不允许使用AI。

本次比赛主办方兼出题人兼裁判陶律师也会作为评价参考,默认满分,但不进入排名。

选手包括:

  • 在校法学生(2周线上兼职审核经验)
  • 应届毕业生(2年线上兼职审核经验)
  • 执业律师(3.5年审核经验)

排行榜

经过激烈角逐,测试结果:

排行榜(加权评分)

AI能力与人类的对比

本次测评中,人类组的表现为:

以人类组的表现作为排序标准,可得:

和3年执业同一档:GPT-5

比3年执业弱一档:Gemini 2.5 Pro;案牍玛卡合同 增强推理


比2年兼职强一档:豆包、Wiselawai 合同审查助手、天工智能体、玛卡合同 基础推理(新版方案)、元典Amicus、玛卡合同 对话模式

和2年兼职同一档:玛卡合同 基础推理(旧版方案)、Kimi K1.5、通义法睿

比2年兼职弱一档:DeepSeekR1、Genspark、Grok、AlphaGPT


比2周兼职强一档:通义千问、Claude 4 sonnet

和2周兼职同一档:GPT-4O、熊猫AI、法天使 智能审查

但还是需注意,实际合同审核中并不看完善度的评分,合同主体信息不全、没查出来合同法其实不会真的有太大影响,而对于「定金风险」这种核心风险,如果没发现则真的大概率可能给客户带来经济损失

本次提示了定金风险的选手有:玛卡合同、法天使、WiselawAI、通义、天工、豆包、DeepSeek、Genspark、GPT-5、Gemini 2.5 Pro;

全满分通关的选手只有一位:GPT-5

总结

简单合同的风险识别中GPT-5已经想的比3.5年的执业律师更快更周全,案牍玛卡合同在国内产品中断档式领先(基础推理+对话模式效果约等于增强推理,增强推理+对话模式 可比肩GPT-5),豆包是专业级守门员,比DeepSeek强很多。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询