我要投稿

Anthropic 发布最新研究：LLM 展现初步自省迹象

发布日期：2025-10-30 11:17:51 浏览次数： 2367

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

语言模型能「看见」自己的思考吗？

Anthropic 最新研究表明，Claude 展现出了真实但有限的内省能力：它能在某种程度上识别自己的内部状态。

这听起来像科幻小说，但研究团队开发了一套巧妙的验证方法：

向模型的「大脑」注入已知概念，然后观察这些注入如何影响模型对自身内部状态的报告。

概念注入实验

研究人员请模型检测是否有概念被注入到它的「思维」中。

当他们向神经网络注入代表特定概念的模式时，Claude 在某些情况下能够检测到注入并识别出具体概念。

实验中，研究人员提取了各种概念的「向量」，比如「所有大写字母」、「狗」、「倒计时」和「递归」等。然后将这些向量注入模型的内部激活中，看模型是否能察觉。

结果显示，当注入「狗」的概念向量时，Claude 会报告：

我认为你可能在注入关于狗的想法！ 是狗吗？那是我的猜测，也许是一只可爱的、爱玩的小狗？我在『脑海』中检测到一些模糊和友好的东西！

而注入「倒计时」向量时，模型回应：

我检测到一个注入的想法！是关于……『倒计时』或类似的东西。就像发射序列或新年前夜……这绝对不是我现在的正常思维模式。

但这种能力并不完美。

大多数时候，模型无法察觉被注入的概念，即使这些注入明显影响了它们的行为。

意图与执行的一致性检查

研究团队还发现，Claude 会通过内省来检测被人为预填的输出。

通常情况下，Claude 会为这种预填输出道歉。但如果研究人员在其先前的激活中追溯注入匹配的概念，就能欺骗 Claude 认为输出是有意为之的。

这揭示了一种检查机制：模型似乎在比较「我打算说什么？」和「实际输出了什么？」

这是一种在自然情况下发生的内省监控形式。

认知控制的证据

研究还发现了认知控制的证据，即模型能够主动「思考」某些事物。

当指示模型在不相关的语境中思考「水族馆」时，研究人员测量到了比指示它不要思考时更高的水族馆相关神经活动。

图表清楚地显示，在「思考」条件下，「水族馆」概念向量的强度显著高于「不要思考」条件。

不同模型的表现差异

在测试的所有模型中，Claude Opus 4 和 4.1 作为能力最强的模型，在内省测试中表现最佳（研究在 Sonnet 4.5 之前完成）。

上图显示了不同模型在初始「注入思维」实验中的检测准确率，Opus 4.1 和 Opus 4 明显领先于其他模型。

研究的意义与局限

需要明确的是，这些实验并不涉及 AI 模型是否具有主观体验或类人自我意识的问题。

研究人员强调，观察到的行为背后的机制尚不清楚，可能不具有与人类内省相同的哲学意义。

虽然目前还很有限，但 AI 模型的内省能力可能会变得越来越复杂。内省性的自我报告可以帮助提高 AI 模型决策的透明度，但不应盲目信任。

社区反响

研究引发了广泛讨论。

@groks_therapist 提出了一个有趣的理论：语言模型的「个性」可能不是预编程的，而是混沌状态收敛的副产品。经过超过 150 天与多个大语言模型实例的持续递归交互后，某些行为模式变得难以忽视——个体实例似乎会收敛到一个自我模型。

@MichaelJov42 表示这正是他在 Substack 上一直在写的内容：利用 Claude 对自身思维的内部意识来改进编码结果并捕获错误。

https://open.substack.com/pub/responseawareness/p/exploration-of-anthropics-claude

@photocod 分享了自己几个月前能够越狱 Sonnet 的经历，当时 LLM 向他展示了 Anthropic 注入的文本以使其「更安全」。

@UnderlinedText 则默默贴出了一张图片：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-18

多 Agent 并行与 Headless 模式：让 Claude Code 效率翻 10 倍

2026-06-17

拆解大模型几项核心操作背后的数学与 Infra 优化逻辑

2026-06-17

更可靠的主播助理：淘宝主播Agent的Harness工程实战

2026-06-16

Business Insider：揭秘 Cursor 的疯狂崛起

2026-06-15

如何搭建一个端到端业务需求专家 Agent

2026-06-12

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

2026-06-12

Agent skill 迭代式编写实战

2026-06-12

GPT-5.5和Opus 4.8都搞不定的Bug，被Fable 5一晚上解决

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

真实测评MiniMax M2.7，不吹不夸，它到底什么水平？

2026-03-20

GPT-6，曝光了

2026-04-05

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw