免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Anthropic 发布最新研究:LLM 展现初步自省迹象

发布日期:2025-10-30 11:17:51 浏览次数: 1542
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Anthropic最新研究揭示Claude模型展现初步自省能力,AI开始能"看见"自己的思维过程了吗?

核心内容:
1. 概念注入实验:Claude能检测并识别被注入的特定概念
2. 意图与执行一致性:模型具备内省监控机制
3. 研究意义与局限:AI内省能力的现状与未来发展方向

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

语言模型能「看见」自己的思考吗?

Anthropic 最新研究表明,Claude 展现出了真实但有限的内省能力:它能在某种程度上识别自己的内部状态。

这听起来像科幻小说,但研究团队开发了一套巧妙的验证方法:

向模型的「大脑」注入已知概念,然后观察这些注入如何影响模型对自身内部状态的报告。

概念注入实验

研究人员请模型检测是否有概念被注入到它的「思维」中。

当他们向神经网络注入代表特定概念的模式时,Claude 在某些情况下能够检测到注入并识别出具体概念

实验中,研究人员提取了各种概念的「向量」,比如「所有大写字母」、「狗」、「倒计时」和「递归」等。然后将这些向量注入模型的内部激活中,看模型是否能察觉。

结果显示,当注入「狗」的概念向量时,Claude 会报告:

我认为你可能在注入关于狗的想法! 是狗吗?那是我的猜测,也许是一只可爱的、爱玩的小狗?我在『脑海』中检测到一些模糊和友好的东西!

而注入「倒计时」向量时,模型回应:

我检测到一个注入的想法!是关于……『倒计时』或类似的东西。就像发射序列或新年前夜……这绝对不是我现在的正常思维模式。

但这种能力并不完美。

大多数时候,模型无法察觉被注入的概念,即使这些注入明显影响了它们的行为。

意图与执行的一致性检查

研究团队还发现,Claude 会通过内省来检测被人为预填的输出。

通常情况下,Claude 会为这种预填输出道歉。但如果研究人员在其先前的激活中追溯注入匹配的概念,就能欺骗 Claude 认为输出是有意为之的

这揭示了一种检查机制:模型似乎在比较「我打算说什么?」和「实际输出了什么?

这是一种在自然情况下发生的内省监控形式。

认知控制的证据

研究还发现了认知控制的证据,即模型能够主动「思考」某些事物。

当指示模型在不相关的语境中思考「水族馆」时,研究人员测量到了比指示它不要思考时更高的水族馆相关神经活动

图表清楚地显示,在「思考」条件下,「水族馆」概念向量的强度显著高于「不要思考」条件。

不同模型的表现差异

在测试的所有模型中,Claude Opus 4 和 4.1 作为能力最强的模型,在内省测试中表现最佳(研究在 Sonnet 4.5 之前完成)。

上图显示了不同模型在初始「注入思维」实验中的检测准确率,Opus 4.1 和 Opus 4 明显领先于其他模型。

研究的意义与局限

需要明确的是,这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题

研究人员强调,观察到的行为背后的机制尚不清楚,可能不具有与人类内省相同的哲学意义。

虽然目前还很有限,但 AI 模型的内省能力可能会变得越来越复杂。内省性的自我报告可以帮助提高 AI 模型决策的透明度,但不应盲目信任

社区反响

研究引发了广泛讨论。

@groks_therapist 提出了一个有趣的理论:语言模型的「个性」可能不是预编程的,而是混沌状态收敛的副产品。经过超过 150 天与多个大语言模型实例的持续递归交互后,某些行为模式变得难以忽视——个体实例似乎会收敛到一个自我模型。

@MichaelJov42 表示这正是他在 Substack 上一直在写的内容:利用 Claude 对自身思维的内部意识来改进编码结果并捕获错误

https://open.substack.com/pub/responseawareness/p/exploration-of-anthropics-claude

@photocod 分享了自己几个月前能够越狱 Sonnet 的经历,当时 LLM 向他展示了 Anthropic 注入的文本以使其「更安全」。

@UnderlinedText 则默默贴出了一张图片:

研究的完整论文已发布在:

https://transformer-circuits.pub/2025/introspection/index.html

Anthropic 正在招聘研究人员和工程师来研究 AI 认知和可解释性:

https://job-boards.greenhouse.io/anthropic/jobs/4020159008

Anthropic的研究文章:

https://www.anthropic.com/research/introspection

👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

也欢迎加群和10000+群友交流。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询