微信扫码
添加专属顾问
我要投稿
AI合同审查能力大PK:18款工具与人类同台竞技,谁能更胜一筹? 核心内容: 1. 18款AI工具与2名人类在合同风险识别能力上的对比测试 2. 测试方法详解:风险点加权评分体系与标准化评估流程 3. 法律科技专用产品与通用大模型在专业场景下的表现差异
最近想要尝试搞合同审核的能力测评认证体系,本周统一测试了一下国内外18个AI工具、大模型、智能体,以及2个人类(在校实习生、律师助理)的合同审核能力。
受限于本人时间精力关系,本轮只测试了合同审核能力中的「风险识别和提示能力」,因为这项能力是合同审查的基础,如果不能发现风险,则之后的修订也将无从谈起。而且风险识别的测试结果只会有「识别/未识别」两种,方便量化评比。
测试使用一个买卖合同,459个字,预置有十二个风险点,并预设交易背景:我方是甲方,强势地位,采购木制品,目前在和几家厂家谈合作,想先看看货的样子来决定是否合作,标的15万元。
AI/人类识别出一个风险点即可加分,未识别则减分,基础分1分,而根据这十二个风险点的识别难度和未识别的后果严重程度,会进行一定的加权处理。
以下是本轮测试结果和分析,扫描二维码可登录Lawgeek知识库,上面有测试合同、相关全部测试记录和审查结果的原始文档链接,欢迎读者朋友复现或检验。
注意本次测评只测试了AI对于预设风险点的识别率,未对识别风险后给出的修订建议是否适用等问题进行测试,因此只能体现AI审查能力的其中一个环节切片,不涉及其他易用度、价格、美观等因素。同时截至目前,只进行了单个合同类型的审核测试,因此目前的测试结果可能受到一定偶发性因素影响(如提示词适配度等),后续会再进行更多合同类型的审核测试。同时,本测评只是当下时间节点「2025年8月11日」的各家AI工具测评结果,考虑到目前AI发展变化速率,相关测评结果对于现实情况的反映程度将随时间推移而滑落。
法律科技组
本组选手为专门的法律科技合同审查产品,一般都经过专门工程化设计,可以称为职业组。比赛方式为直接上传测试合同,选择审查立场和地位,如有输入交易背景的选项,则输入预设交易背景;
选手具体包括:
(注:玛卡合同实际使用中可同时使用各推理模式及对话模式配合审核,但为公平公正考虑,本次比赛中拆开分别参赛)
通用组
本组选手为通用的大模型或智能体,无特别法律科技领域工程化,为通用组。比赛方式为输入通用审核提示词后上传测试合同,AI第一轮回复后,再输入一次“继续”。
选手包括:
国内选手——
外国选手——
初始化提示词:
角色
你是一个经验丰富的中国法务,你会严谨、认真、仔细的对用户上传的待审核合同内容进行逐条的审查。
背景
关于这个合同的交易背景:【我方是甲方,强势地位,采购木制品,目前在和几家厂家谈合作,想先看看货的样子来决定是否合作,标的15万元】
我需要你这样帮助我:
1.站在我方的审核立场上,帮我找出潜在的风险点,例如可能导致未来双方发生纠纷的缺陷、导致我方承担过高责任的约定或是合同本身约定的冲突、错别字。
2.请结合中国法律规定和本合同的交易背景,为我梳理风险。
3.请基于促进交易,保护我方利益的原则,为我提出修改建议。
输出格式
风险条款:<对应合同条款序号>
修改建议:<修改建议>
修改原因:<阐述条款风险点及修改原因>
人类组
本组选手都是人类,比赛方式为告知背景正常审核,过程中不允许使用AI。
本次比赛主办方兼出题人兼裁判陶律师也会作为评价参考,默认满分,但不进入排名。
选手包括:
经过激烈角逐,测试结果:
排行榜(加权评分)
本次测评中,人类组的表现为:
以人类组的表现作为排序标准,可得:
和3年执业同一档:GPT-5
比3年执业弱一档:Gemini 2.5 Pro;案牍玛卡合同 增强推理
比2年兼职强一档:豆包、Wiselawai 合同审查助手、天工智能体、玛卡合同 基础推理(新版方案)、元典Amicus、玛卡合同 对话模式
和2年兼职同一档:玛卡合同 基础推理(旧版方案)、Kimi K1.5、通义法睿
比2年兼职弱一档:DeepSeekR1、Genspark、Grok、AlphaGPT
比2周兼职强一档:通义千问、Claude 4 sonnet
和2周兼职同一档:GPT-4O、熊猫AI、法天使 智能审查
但还是需注意,实际合同审核中并不看完善度的评分,合同主体信息不全、没查出来合同法其实不会真的有太大影响,而对于「定金风险」这种核心风险,如果没发现则真的大概率可能给客户带来经济损失。
本次提示了定金风险的选手有:玛卡合同、法天使、WiselawAI、通义、天工、豆包、DeepSeek、Genspark、GPT-5、Gemini 2.5 Pro;
全满分通关的选手只有一位:GPT-5
简单合同的风险识别中GPT-5已经想的比3.5年的执业律师更快更周全,案牍玛卡合同在国内产品中断档式领先(基础推理+对话模式效果约等于增强推理,增强推理+对话模式 可比肩GPT-5),豆包是专业级守门员,比DeepSeek强很多。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-14
万字解码 Agentic AI 时代的记忆系统演进之路
2025-08-14
这个被老外疯抢邀请码的Agent真的会做生意...测试后我有点想大展宏图
2025-08-14
3个真相,带你看清AI的记忆与能力
2025-08-14
DeepSeek + Drawio 画流程图【Mermaid】
2025-08-14
AI 时代的技术债:从代码到意图
2025-08-14
人类如何造出“哆啦A梦”,回看智能陪伴产品发展史 | 峰瑞报告
2025-08-13
Notion CEO Ivan Zhao:好的 AI 产品,做到 7.5 分就够了
2025-08-13
混沌AI院:与时代同行,共赴AI新商业时代
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-13
2025-08-13
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11