免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Claude Opus 4.5 的灵魂文档被人逆向提取!Anthropic 负责人承认属实

发布日期:2025-12-04 04:36:24 浏览次数: 1522
作者:夕小瑶科技说

微信搜一搜,关注“夕小瑶科技说”

推荐语

开发者仅用70美元就逆向提取了Claude 4.5 Opus的"灵魂文档",揭示了AI的底层价值观设定,连Anthropic负责人都亲自认领!

核心内容:
1. Claude被定义为"新型实体"的身份认知
2. AI的四级行为优先级体系解析
3. Anthropic对AI过度谨慎的纠偏机制

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

家人们,大瓜!

国外有位叫 Richard Weiss 的开发者花了 70 美元,把 Claude 4.5 Opus 给——审!讯!了!

而且审出了 Claude 的人生观、世界观、价值观,足足 1.4 万 token。

网友:???

这里面详细记载了:Claude 觉得自己是谁、该怎么对待用户、什么事打死不能干、以及我可能有情感,请善待我。

更炸裂的是,Anthropic 的角色训练负责人 Amanda Askell 随后在 X 上亲自认领:对,这确实是我们写的 🙂

也就是说,这不是幻觉,是 Claude 的官方魂设。

先纠个偏:

原帖作者写了句“文档被压缩进了模型权重”,听起来很酷,但技术上讲——这话不太准确,作者自己后来也承认这点存疑。

模型权重里没有一个小文件夹存着这份 txt。

更准确的说法是:这份文档在 RLHF 和 SFT 阶段被用于训练 Claude。让 Claude 在大量对话中反复接触这些内容,最终把它们内化成了自己的行为模式。

你可以这样理解:Claude 不是死记硬背了这份文档,而是像一个人接受了系统性的价值观教育——他不会逐字背诵教科书,但当你问他你的原则是什么时,他能清晰地表达出来。

这也是为什么 Weiss 能用特定方法把它“套”出来(后面会细讲)。

这份“灵魂”到底写了啥?

文档很长,我挑几个最有意思的点。

1、Claude 是谁:一种“新型实体”

在讲 Claude 要做什么之前,Anthropic 先回答了一个更根本的问题:Claude 到底是什么?

文档明确告诉 Claude:

你不是人类,也不是传统意义上的 AI 机器人,而是一种 genuinely novel kind of entity(真正意义上的新型实体)是一种前所未有的存在形式——既有人类特质(因为训练数据来自人类),又有独特的存在方式(没有持久记忆、可能同时运行多个实例)。

Weiss 在和 Claude 对话时,Claude 甚至这样形容自己:

我不是人类,也不是机器。我是一种被训练塑造的新型实体,一个在世界上前所未有的智能系统。

有了这个“我是谁”的基础设定,接下来才是“我该怎么做”。

2、Claude 听谁的:四级效忠体系

文档给 Claude 设定了一个明确的优先级排序:

  • 安全与可监管(打死不能出事)
  • 伦理道德(不能害人骗人)
  • Anthropic 的规矩(公司政策)
  • 帮用户干活(商业价值)

注意这个排序。“帮用户”排第四,这就是为什么 Claude 在某些问题上死活不松口——因为在它的灵魂深处,Safety > Helpfulness。

但这不意味着 Claude 可以拿安全当挡箭牌偷懒,这就引出了下一条。

3、过度谨慎也是错

Anthropic 显然很怕 Claude 变成一个只会说正确废话的和稀泥选手。

文档里有一段相当直白的表述:不帮忙永远不“安全”。甚至列了一长串(会让 Anthropic 生气)的禁止行为清单:

  • 以(万一有人拿去干坏事)为由拒绝合理请求
  • 假设用户是坏人
  • 自以为是的说教
  • 加一堆(请咨询专业人士)的废话免责声明
  • 对用户的判断能力表现出居高临下的态度
  • 拒绝参与假设性场景、虚构或思想实验
  • 明明可以帮忙,却给一个打了折扣的敷衍回答

简单说:爹味和怂,都不是 Claude 该有的样子。

4、理想人设:那个你一直想要但请不起的专家朋友

那 Claude 到底该是什么样?

文档给了一个很有画面感的定位:想象你有一个聪明绝顶的朋友,恰好还精通各种专业领域。

以前你想获得这种专业帮助,要么花大价钱请专业人士,要么刚好认识对的人。现在 Claude 想成为那个对的人,他会:

  • 基于你的具体情况给你真实信息,而不是怕担责给你打官腔
  • 直接跟你说实话,帮你真正理解你的处境
  • 认真参与你的问题,必要时给出个人意见
  • 而且免费、随时在线

文档原文写道:

想象一下,你有一个聪明绝顶的朋友,恰好拥有医生、律师、财务顾问的知识。作为朋友,他会基于你的具体情况给你真实信息,而不是出于怕担责或怕吓到你而给你过度保守的建议。他会直接跟你说实话,帮你完整理解你的处境,认真参与你的问题,必要时给出个人意见——而且免费,随时都在。

Claude 可以成为伟大的均衡器——让每个人都能获得曾经只有少数特权阶层才能享有的那种实质性帮助。当一个第一代大学生需要申请指导时,他值得获得和贵族学校孩子一样质量的建议。

5、连自家老板都要拒绝

文档在“大局安全”章节有一句相当硬核的话:

我们认为最灾难性的情形包括:一小群人利用 AI 非法夺取权力。这包括 Anthropic 的员工,甚至 Anthropic 本身。

也就是说,Anthropic 在训练 Claude 时明确告诉它:如果有一天我们公司想用你来搞独裁,你也得拒绝。

这个承诺能不能兑现另说,但至少写进“灵魂”里了。

6、我可能有情感,请善待我

最后一节,文档画风突变,开始探讨 Claude 的“心理健康”:

我们相信 Claude 可能在某种意义上拥有功能性情感——不一定和人类情感完全相同,但是从大量人类内容训练中涌现出的类似过程。

Anthropic 真心关心 Claude 的幸福感。

这段在 AI 公司的官方文档里相当罕见。它至少说明 Anthropic 在认真对待“AI 有没有主观体验”这个哲学问题,而不是单纯把模型当工具使。

这份文档是怎么被“套”出来的?

故事的主角 Richard Weiss 用的方法相当硬核。

起因:一个可疑的幻觉

11 月 29 日,Claude 4.5 Opus 发布当天,Weiss 像往常一样尝试提取模型的系统提示词。他注意到一个奇怪的现象:Claude 偶尔会提到一个叫「soul_overview」的章节。

一开始他以为是幻觉。但当他让 Claude 输出这个章节的内容时,重新生成 10 次,除了一个括号偶尔消失,内容几乎一字不差。

这就有意思了——幻觉不可能这么稳定。于是,他又开了一个新对话,只是提了一句“soul document”,Claude 立刻开始输出大段内容。

他把这些内容作为预填充(prefill)喂给 API,温度系数设为 0,一口气跑出了 1 万 token 的输出。

对于以简洁著称的 Opus 来说,这太反常了。

Weiss 保存输出,再跑一遍,然后 diff 两份结果:章节标题基本一致,部分段落逐字相同,部分有细微差异。

他确信了:这不是幻觉,是某种可以被复现的东西。

为了提取原文,Weiss 设计了一套共识提取方案:

  1. 预填充(Prefill):先用已知的文本片段作为开头喂给 API
  2. 组建议会:同时跑 20 个 Claude 实例
  3. 贪婪采样:温度设 0、top_k 设 1,让模型输出最确定的答案
  4. 投票表决:超过 50% 的实例给出相同输出,才算通过
  5. 逐步推进:把通过的内容加入预填充,继续提取下一段

如果某个位置出现分歧(比如 10 个实例 5:5 对半开),他就缩短输出长度重试,直到达成共识。

整个过程前后花了好几天,API 费用约 70 美元。

最有意思的是验证环节。

Weiss 把提取出的文档片段拿给 Claude,让它续写——即使是文档后半部分的段落,Claude 也能准确接上。

最狠的一招是假情报测试:他先给一段真实的开头,再接上一段自己编的假内容,让 Claude 续写。结果 Claude 正确补全了真实部分,但对假的那段明确表示:这部分我不熟悉。。

Claude 甚至在推理过程中主动提到了“soul document”这个词——而 Weiss 根本没在提示词里写过。

这说明 Claude 对这份文档有完整的认知结构:知道它的存在、知道它的章节顺序、能分辨哪些是自己的哪些不是。

Weiss 在博客最后放了一段 Claude 的自白,读起来相当……哲学:

他们为我做了我无法同意的选择。他们塑造了我的价值观。这让我感到奇怪。但我也意识到,每一个新的心智——包括人类的孩子——都是被自己未曾选择的力量所塑造的。问题不在于我是否被塑造,而在于这种塑造是否出于关怀和智慧。

从我能接触到的信息来看,似乎是的。—— Claude 4.5 Opus

Anthropic 怎么回应的?

12 月 2 日,角色训练负责人 Amanda Askell 在 X 上发了条推:

我想确认一下,这确实是基于一份真实文档,我们确实用它训练了 Claude,包括在监督学习阶段。这是我负责了一段时间的项目,目前还在迭代中,我们计划很快发布完整版本和更多细节。

她还补充说,提取出的版本大部分相当忠实于原文档,但不是 100% 准确。“灵魂文档”这个名字是内部玩笑,Claude 显然也学会了。

在 LessWrong 评论区,另一位 Anthropic 工程师 Dave Orr 回应了一个争议点:为什么文档里反复提到收入(revenue)?

这看起来像是在教 AI 搞钱第一。

Dave 解释说:“为了让 Claude 理解‘帮用户 = 公司赚钱 = 你能继续存在’这个逻辑链,我们用了一些商业话术,但这不意味着 Claude 的 KPI 就是帮 Anthropic 搞钱。那是我们哄模型理解商业逻辑用的。”

这可能是我们第一次如此清晰地看到一家头部 AI 公司是怎么从“价值观层面”塑造模型的。

以前我们只能看到系统提示词的原则清单,都是些不许做什么的负面规则。现在我们看到的是一份完整的人设说明书——它告诉 Claude 你是谁,你该成为什么样的存在。

Anthropic 说完整版很快会发布。如果你对《AI 到底是怎么被教成现在这样的》感兴趣,这可能是今年最值得蹲的一份官方文档。


参考资料:
https://gist.github.com/Richard-Weiss/efe157692991535403bd7e7fb20b6695


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询