2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

清华发布的Legal Skills和Claude for Legal有什么编排差别

发布日期:2026-06-03 13:53:28 浏览次数: 1520
作者:法知能LawAI

微信搜一搜,关注“法知能LawAI”

推荐语

清华大学与Anthropic发布的两套法律AI技能,前者聚焦法律思维底层能力,后者贴合律师日常工作流,差异显著。

核心内容:
1. 两套技能处于不同层面:清华版是推理能力库,Claude版是执业领域工作流
2. 组织方式差异:清华版按能力类型横切,Claude版按执业领域纵切
3. 调用逻辑不同:清华版采用串行流水线,Claude版基于领域上下文引导

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

发布之后,有朋友来问我:这是 Claude for Legal 的中国版吗?跟 Anthropic 官方那套有什么区别?

我们今天就来看一下。

两套都叫"法律 AI 技能",但一对比就会发现它们不是在解决同一个问题,甚至不在同一个层面。

一、它们处于不同的层

Legal-Skills-Chinese 是一套推理能力库

它拆解的是"法律思维怎么运转":要素提取、概念理解、演绎推理、论证评估……每个 skill 只做一件事,是推理链上的一个节点。

两个复合能力(判决书生成和判决预测)是把这些节点串成流水线,但流水线本身是显式定义好的,按固定的 8 步顺序走。

Claude for Legal 处于另一层。

解决的是律师的日常工作怎么跑

12 个插件不按推理类型分,按执业领域分:litigation-legal、commercial-legal、employment-legal,诉讼律师有诉讼律师那套,商业合同律师有商业合同律师那套。

每个插件里有 10 到 16 个 skill,覆盖这个领域从接案到出文书的完整流程。

二、组织轴不同

清华版按能力类型横切

信息检索 → 事实要素处理 → 法律解释 → 法律推理 → 论证评估 → 风险判断 → 文书管理

这条轴穿越所有法律场景。无论你在做合同审查还是刑事辩护,演绎推理都是演绎推理,证据评估都是证据评估。技能的分类依据是思维的类型,不是工作的场景。

Anthropic 版按领域纵切。每个插件是一个独立的执业世界:litigation-legal 里面有案件接入(matter-intake)、证据链梳理(chronology)、需求函起草(demand-draft)、开庭前清单(trial-prep-final)……每个技能都在"诉讼律师的日常"这个上下文里展开,不是抽象的推理步骤。

两者的隐含假设不一样。清华版假设你知道自己要做什么推理,然后去调相应的能力。Anthropic 版假设你知道自己在哪个领域,领域里的工作流自然把你引到对应的技能。

横切vs纵切:推理类型 vs 执业领域的组织方式对比

对律师这一职业来说,后者可能更加自然。你的工作身份是"诉讼律师",不是"需要做演绎推理的人"。

三、调用方式不同

清华版的调用逻辑是串行流水线。以判决书生成为例,输入案件事实后走固定的 8 步,每两步之间有质量检查点(QC),不通过就回溯上游重来。流程里有条件分支:案子涉及共犯就激活共犯推理层,涉及未遂就激活犯罪形态推理层,但框架本身是预先固定的。

可预期是这套逻辑的好处:你知道模型走了哪几步,哪个环节出问题就在哪修。代价是场景依赖强。这条流水线是为"生成裁判文书"设计的,你的任务如果是"梳理一份合同的争议条款",流水线就对不上了。

Anthropic 版的逻辑是路由分发。每个插件都有一个路由 skill,先读任务,识别是什么类型的工作,然后分发到对应的分析 skill。分析 skill 有自己的详细清单和工作流,但不强制固定顺序,围绕任务展开。

你不需要先想清楚"这是什么推理步骤",直接扔一个任务进去,模型自己决定走哪条路。

串行流水线 vs 路由分发:两种调用方式对比

四、有没有持久记忆

这是两套体系差别最大的地方,也最容易被忽视。

Legal-Skills-Chinese 没有状态。每次调用从零开始,没有用户画像,没有历史记忆,没有关于你这个律师的任何积累。这是能力库的正常形态,它提供推理框架,不存储用户信息。

Claude for Legal 在每个插件里都内置了冷启动面试机制(cold-start-interview)。第一次用之前,插件会问你:你在哪里执业、主要服务什么类型的客户、你的合同审查标准条款是什么、遇到什么情况要升级给合伙人。问完后,答案写进一个配置文件,之后每次调用这个插件,都在这个画像基础上运行。

效果是什么?同样一份合同丢进去,专注互联网公司的律师和主打传统制造业的律师,会得到不同的分析重点。不是因为模型知识不同,而是因为模型知道你是谁、你的客户是谁、你的审查标准是什么。

无状态 vs 持久画像:两种记忆模型对比

这个差异比看起来要大。大多数"法律 AI 工具"给你的是一个通用答案,而真正有用的专业工具应该知道你在哪里,你的客户是谁。

五、harness在保护不同的东西

清华版的质量检查点(QC)是逻辑层面的:法条有没有覆盖全部争议焦点?推理链有没有逻辑矛盾?量刑结论有没有超出法条规定的幅度?它在验证推理是否完整正确。

Claude for Legal 的 9 层护卫栏是责任层面的:每一条引用都标注来源(是从数据库检索到的,还是模型训练数据里的?);发现不确定时过度标记而不是静默通过;检测到管辖范围不对时明确说明而不是套用默认框架;发送给外部前检查是否会放弃特权保护。

清华版在查推理对不对,Anthropic 版在管谁对这份输出负责。

对实务工作来说,这两层都需要。推理不完整,结论就错。但结论正确、来源不清,你也不敢直接用。清华版解决了前者,Anthropic 版解决了后者。如果你要在实际工作里用清华版的推理框架,来源追溯这部分需要自己补上——每条法条引用打上标注,标清楚是检索到的还是模型记忆里的。

两套体系拼合一下也许会更好

两者不是竞争关系,是两层:推理能力(怎么想)和场景框架(怎么用)。理论上完全可以叠起来用。

一个具体的例子:Claude for Legal 的诉讼插件里有证据论证链技能,但它描述的是工作流步骤,没有具体的推理方法。如果把清华版 evidence-argument-chain 的推理逻辑——"主张→构成要件→证据→证明力评估"这套映射——填进去,这个技能的质量就会高很多。

反过来,清华版缺少的是场景编排。它有法条检索,但没有"这次分析做完,下一步是起草代理词还是先发律师函"的决策树。Anthropic 的路由机制补了这个缺口。

但目前国内还没有人把这两层系统性地拼起来。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询