我要投稿

大模型是如何会“思考”的？—— 对 Lilian Weng《Why We Think》的非技术向阅读笔记

发布日期：2025-06-04 18:16:09 浏览次数： 2099

作者：写给爸爸的 AI 笔记

微信搜一搜，关注“写给爸爸的 AI 笔记”

对于非技术人员来说，LilianWeng的这篇内容读起来稍微有点困难。

除却那些需要一直查询的技术细节，我一直在想，对于一个非技术人员，我最大的 take away是什么？

我觉得，如果只带走一个点，那就是——从不同的维度来理解模型是怎样思考的。

一、语言层的思考：Thinking in Tokens

如果你曾对 ChatGPT 说过：

Let's think step by step

那么你已经在使用 “Token层面的思考”了。

这就是被称为 Chain-of-Thought（CoT） 的机制——在回答问题前，要求模型先“写下推理过程”。

比如这样?：

Q: 小明买了3个苹果，又买了2个，他有几个苹果？A: 首先他买了3个苹果，然后又买了2个，所以一共是3+2=5。

CoT 的本质，是让模型在语言中“显性地表达出自己的思维路径”。

研究发现，在数学题、逻辑题、代码任务中，加上这样的中间步骤，准确率会显著提升。

更进一步，研究者还发展出了：

- Parallel Sampling + Self-Consistency：一次生成多个思路，再投票选最靠谱的；

- Sequential Revision：让模型像人类一样，一步步自我反思、修改答案；

- 工具增强（如 ReAct、PAL）：模型在“想的过程中”可以调用计算器、搜索引擎、代码解释器等外部工具。

可以说，Thinking in Tokens 是模型“说出它在怎么想”的开始。

这里有个很有趣的讨论，就是：模型写下的“思考过程”，到底是它真正在想的，还是写给我们看的？

模型也会欺骗我们，假装在思考。

二、结构层的思考：Thinking in Continuous Space

但思考，并不总是要说出来的。

就像我们解决问题时，有时也只是默默地在脑子里推演，而不是把每一步写在纸上。

对应到大模型中，就是 Thinking in Continuous Space：让模型在内部结构上拥有“多想几轮”的能力。

研究者通过以下几种方式实现这一目标：

1. Recurrent Transformer 架构

像 Universal Transformer、Block-Recurrent Transformer 这样的结构，允许模型在内部循环处理输入，控制“每个 token 要不要继续思考”。

2. Thinking Tokens / Pause Tokens

人为地插入一些“无意义 token”，强迫模型在生成下一步前“多做一点计算”。

这些 token 像是模型的“停顿”或“深呼吸”，目的是获得更高质量的思维结果。

3. Quiet-STaR

模型在生成每个 token 后，还要附上一句 “我为什么写这个”的 rationale；

这就像模型在边写边解释自己的每一步，形成“token级别的思维链”。

这一类方法更强调结构上的深度，使模型具备了更细致、更内省的计算路径。

三、统一的理论框架：Thinking as Latent Variables

‘思考’这个现象的本质是什么？

我们如何建立一个数学模型来描述它？

我们如何根据这个模型来训练AI，让它的‘思考’更有效、更接近我们期望的理想状态？”

研究者提出：可以把整个推理过程建模为一个概率分布：

P(y|x) = Σz P(z|x,y) P(y|x,z)

其中：

x = 输入问题

y = 最终答案

z = 思考过程（潜变量）

也就是说：同一个问题（x），可以有多个可能的思考路径（z），我们希望找到那些能导出正确答案（y）的路径。

从技术角度，代表方法：

- STaR（Self-Taught Reasoner）：即使模型一开始答错，也可以反向生成“如果要答对，应该怎么想”，并从中学习；

- EM算法

四、思考时间 vs 模型规模：哪个更划算？

一个非常现实的问题是：我们到底是要一个更大的模型，还是一个能多想一步的小模型？

答案是：两者并不是简单替代关系。

研究发现:

- 对于中等难度的任务，给小模型更多“思考时间”往往能弥补体量的差距；

- 但面对高难度任务，思考时间无法完全替代训练中获得的“认知能力”。

目前最佳策略是：训练一个足够强的 base 模型，然后让它“会慢想”。

五、未来的挑战与机遇

这条通往“让模型思考”的路并不简单，还有很多待解的问题，比如：

- 如何训练出既可靠又真实的推理路径？

- 如何让模型真正在“想”，而不是为了奖励“装思考”？

- 如何根据任务难度，自适应分配“思考资源”？

- 如何在现实推理预算下（如时间、算力）取得最优效果？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-05

Palantir发布新产品Chain Reaction：面向美国人工智能基础设施的操作系统

2025-12-05

OpenAI内部代码泄露！最强模型「皇帝」登基，0思考延时吓人

2025-12-04

一文看懂AI智能体系统背后的重要技术——上下文工程（Context Engineering）

2025-12-04

大模型“落地三件套”：Ollama本地部署、API 调用和LLM封装

2025-12-04

Enterprise AI的三层架构

2025-12-04

Claude Opus 4.5 的灵魂文档被人逆向提取！Anthropic 负责人承认属实

2025-12-03

一文详解容器面向大模型与AI Agent的技术变革

2025-12-03

详解Palantir AIP大模型调用工具：Query Objects

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从需求场景出发的AI应用项目落地方法论

2025-09-19

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

Qwen3-Coder与Claude Code深度对比：谁是你的AI编程助手？

2025-09-14

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

大家都在问

Bun × Anthropic：AI 运行时变革的信号？

2025-12-03

MCP是不是真凉了？

2025-12-01

如何规划一个「有节奏感」的AI产品路线图？

2025-11-28

AI Agent是「未来应用入口」，还是又一轮「技术泡沫」？

2025-11-27

200 美元，一天干完半年活：这个新出的AI科学家，是来砸博士生饭碗的吗？

2025-11-27

如何通俗的理解AI Agent的工作流？

2025-11-27

为什么大模型在企业落地那么难？

2025-11-25

Palantir牵手Snowflake，我们能学到什么？

2025-11-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB