微信扫码
添加专属顾问
我要投稿
AI发展迎来新拐点:能动性与上下文工程成为关键突破,创业者如何把握这一机遇?核心内容: 1. AI能动性的定义与行动力拐点解析 2. 模型能力与上下文工程的双轮驱动机制 3. 提升AI能动性的实践路径与创业机会
《奇绩大模型笔记》是奇绩基于内部搭建的通用智能分析和研究体系,为创业者整理的有关前沿技术创新和应用实践洞察的笔记。
在人工智能的发展历程中,模型能力的不断增强一直是最受关注的焦点。然而,随着 2025 年 2 月 Anthropic 发布 Claude Code,一个新的拐点正在显现:AI 的能动性正以前所未有的速度走向前台。能动性的背后,是模型能力与上下文工程的协同进化。这不仅让我们对通用智能的理解更加深刻,也为创业者打开了新的想象空间。
本文提纲:
能动性是什么:AI 的行动力拐点
训练能动性:模型能力与上下文工程双轮驱动
上下文工程:能动性背后的关键支撑
实践路径:如何打造更强的能动性与上下文工程
由于技术和产业发展非常快,基于新的洞察,笔记内容也会不断更新迭代。为帮助用户更直观地理解,我们准备了与本次分享内容相关的完整 PPT 近 50 页,可以扫描下方二维码获取。
如已提交创业营申请表,可点击阅读原文查看
正文
上一篇大模型笔记中,我们提到,AI 时代,能动性和垂直场景上下文的构建是创业者在竞争中取胜的关键。在 2025 年 2 月 Anthropic Claude Code 的发布之后,这一认知有了新的变化—— 我们正进入一个以能动性为核心的人工智能发展新阶段。
突破首先在于模型能动性的提前到来——AI 行动力的拐点,比预期中由机器人和具身智能率先带来的时刻更早出现;其次在于上下文工程。过去我们往往将目光集中在模型能力的持续提升,但 Claude Code 的案例清晰地展示出,对于能动性的提升,上下文工程与模型能力的提升同等重要。
基于该认知,我们对通用智能的内涵也有了进一步理解。从构成看,硅基智能本质上可以被视作三层能力结构:推理(reasoning)能力,能动(agency)能力,认知(cognition)能力。
如何理解能动性的概念呢?
能动性(Agency)是一个源于哲学并被广泛运用于心理学、社会学、教育学等领域的概念,既不等同于主动性,也不等同于认知。
认知可以理解为获取知识的过程,而能动性是搞定复杂任务的能力。可以通过人类自己的行为来形象地理解能动性的差异。面对同一个复杂任务,高能动性个体通常会主动推进任务进程,完成后明确汇报,并迅速寻求下一步挑战,例如说:“我完成了,下一个任务是什么?”而低能动性个体则可能在执行过程中频繁受阻,甚至在短时间内返回表示:“我这里卡住了。”
类似的,智能体的能动性就体现在,给定⼀个任务:
第一,智能体可以独立做很复杂的或者长线规划;
第二,智能体能用工具根据规划与环境交互;
第三,智能体能判断这样做能否完成任务,也就是智能体对完成任务有很强的评估手段。
Andrej Karpathy 举过一个形象的例子。如果把智能体想象成一条狗,这条狗能动性不强,那么牵绳(leash)就要很短,它的活动范围会被限制得很小;而如果这条狗能自由外出、完成任务后自己回来,那么牵绳就可以放得很长。
以产品为例,Cursor 早期展现出的能动性相对较低。其典型交互模式是短指令、短响应,例如:“帮我补一行代码”“完善这个函数”等。相比之下,Claude Code 的表现则体现出更强的能动性。当用户发起请求时,它往往不会直接动手,而是先进行任务澄清,例如:“我先帮你梳理一下需求,我们确定一下你要做什么。” 接着它会提出整体方案,协助用户进行规划、再逐步生成代码、优化实现,并最终参与测试与验证。
可以形象地说,Claude Code 就像是一条被赋予“长牵绳”的狗,具备更高的能动性。它不需要主人时刻引导,可以在较大的自由度下独立完成任务,并最终“带回成果”,且结果通常较为符合用户预期。
能动性的强弱也一定程度上解释了为何一些开发者越来越青睐 CLI(命令行接口)风格的产品形态。相比 GUI(图形用户界面)的“点对点操作”,CLI 更适合承载复杂、多步任务,使能动性得以充分体现。
如何训练能动性?
我们曾提到,硅基智能的结构和碳基类似。模型就像人的大脑,具备记忆和泛化能力,存在一个界面可以与环境交互,具备行动能力,同时可以进化。环境即数据,进化的过程即算力与能耗的投入。本质上,模型的每次训练实则是在用一周时间压缩几百万年的进化过程。
正如人类变得聪明不仅依赖复杂环境,也因为我们有灵巧的双手,能与环境交互。对模型来说,能动性的提升同样离不开与复杂环境的交互。过去几年,我们主要聚焦 OpenAI 提出的 Scaling Law 路线。这条路径依然重要,但要进一步提升模型的能动性,仅靠 Scaling 已经不够。
事实上,人类在进化后期更多依赖语言、书籍和学校。人类和工具在共同进化,而非通过反复实验或构建无数物理环境。类比来看,能动性一方面来源于学习他人的上下文(如书籍),这正是上下文工程试图模拟的过程;另一方面来自模型本身能力的提升,类似人类在自然界中训练形成的“第二天性”(second nature)——无需思考即可执行的本能。
具体而言,能动性的两个方面体现为意图理解和目标遵循,以及任务规划和工具操作。这不仅涉及模型本身能力的提升,还涉及上下文工程的构建。
早期模型能动性有限,主要原因在于环境差——互联网虽然信息丰富,但缺乏能动性数据,没有思考轨迹,因为人类不习惯将自己的思维链条写出来。相比之下,代码中天然蕴含更多的推理与结构性信息,成为当下构建能动性的重要载体。环境的搭建,让模型与环境有更多交互也是接下来要突破的地方。
另外,需要强调的是,要提升能动性,必须用 Scaling Law 的思路找数据配方,核心在于构建完善的合成数据管线与评估数据集。需要将模型能动性训练或智能体开发当作一种“教育”,写教材、教它、考核它,不能直接做工程。
那么,需要什么样的能动性数据呢?在数据蒸馏(distillation)阶段,一个关键的概念是 "think with",核心是模型需要具备思考能力。
例如,在 DeepSeek-R1 论文中提到的 thinking token(可以理解为 think with 语言的思维链),就是人类在思考过程中自然出现的停顿词,如 “等一下”、“嗯” 等,它们标志着思维正在进行。当模型学习这些 thinking token 后,也能表现出类似人类的逐步思考能力。要做到这一点,可以用数学方法延长模型的思考过程,通过中间训练,如 SFT(Supervised Fine-Tuning,监督微调)将 CoT 数据“塞”进模型,内化进模型权重。
除此之外,还有一系列典型的 “think with” 模式值得关注,如 think with react(在交互过程中反应并调整思路)、think with tool(通过调用工具延展能力)、think with code(借助已有代码和范例延展能力)等。值得一提的是, Anthropic 提出的 think with think,其强调 “打草稿” 的能力,类似人类边想边写、边写边改,逐步收敛至最优解的过程。另外,Think with code ⾮常重要,因为在这个过程中,模型需要⾸先找到⼤量的示例或代码,然后根据这些示例进⾏推理和⽣成,这是⽬前⼤多数⽣成任务中常⻅的⽅式。
需注意的是,关于模型能动性的提升,OpenAI 做对了一部分,Anthropic 实则做对了另一部分。OpenAI 的思路是尝试构建一个极其强大的通用模型,希望通过吸纳尽可能多的人类知识,来统一应对各种任务。Anthropic 的早期策略也类似。例如 Claude 3.7 在 one-shot 任务中表现出色,但由于过于“主动”,在某些场景下会未经确认地修改整个代码库。虽然这体现了很强的能动性,但也暴露了风险。因此在 Claude 4.0 中,Anthropic 对这类过度自主的行为做了回收,强调能动性的逐步提升。
而今年 2 月发布的 Claude Code 则是一个关键转折点。过去大家的关注点都在模型本身,但 Claude Code 可以被视作一个能理解上下文中的需求,进行逻辑推理,并以结构化方式生成高质量代码,依据用户描述自动响应的条件引擎。
当前,整个产业正在从“模型 + 应用”的模式过渡到智能体爆发的阶段。正如前文所言,模型和上下文工程都在同步发展和推进,二者同等重要。
参照 Claude Code 的案例,上下文工程就是将写代码的上下⽂系统性地组合在其中。具体而言,上下文工程类似于结构性说明书,包含 system prompt、structure prompt、task prompt。
首先是 system prompt,代表一个组织或者个人的目标、信念等目的性、方向性的信息。比如一个国家的宪章就是其 system prompt,用语言框定了这个国家允许和不允许做的事情。
System prompt 的关键作用是告诉模型,用户的角色、理念和价值观,以及用户是如何编写代码的。Claude Code 的核⼼就是通过 system prompt 来引导整个工作过程。有了 system prompt,Claude Code 并不直接开始写代码,⽽是会先分析需求,提出规划方案,并和用户确认规划好的方案是否合理。如果规划没问题,才会逐步⽣成代码,逐个模块地实现功能。
其次是 structure prompt,是静态的、物理的、环境性背景信息。例如,可以⽤⽂字把上下⽂⼀层⼀层写下来,描述一个组织是如何开展业务的。最后是 task prompt,即具体的、临时性指令或任务请求。
从人类认知方式来看上下文工程的必要性——人的上下文窗口很短,要整理上下文,可以参考书籍撰写的方式。书的结构就是人的上下文结构,人类只能通过分成一节、一章、一卷这样的方式构建大的知识体系。
关于如何做好上下文工程,Claude Code 是非常成功的例子。其应用领域不仅仅局限于代码生成,也已开始涵盖市场营销、产品设计等更多领域。
Claude Code 之所以能力很强,一方面是因为它的对齐(alignment)做得好,另一方面是数据来源的独特性。 比如 Claude Sonnet 或 Opus 的意图理解能力和任务拆解能力都非常强,除了有 constitution(宪章)级别的对齐机制外,更重要的是它背后积累的代码数据。同时,有很多人会用 Claude 做网页和网页应用,而人类大量的需求、重要的意图(intent)都会在这样的前端代码数据中呈现。所以 Claude 能看到很多人类意图,同时能看到代码能动性的轨迹——看到代码如何被一层一层写出来,如何满足人类意图。
这也是 Claude 在文化理念层面与 OpenAI 的差别所在:OpenAI 的做法是⼀切都以 Scaling 为中心,而 Claude 更强调语言与宪章级的对齐。
Claude Code 的理念背后其实是软件 3.0 的理论基础:人类社会的一切任务都可以表述为在一个分布上施加适当的条件。从技术机理角度看,设置条件然后询问分布情况,比让模型学习所有条件分布情况要容易得多。
Claude Code 采取的做法是在模型外部把条件搭好,只要分布足够,就可以直接生成结果。这里的条件就是一组 prompt,prompt 搭好后,依托已有的推理链,就能得到结果。而 OpenAI 的核心方法就是让模型学会所有条件,这需要很长时间。同时,针对医院类似的场景,几乎很难通过数据训练提升能动性。例如,护士照顾一个断腿的患者,需要的能动性非常复杂,这样的数据很难获得。
对创业者而言,要抓住新阶段的机会,可以选择做特定行业专属的 Claude Code,或者用 Claude Code 赋能垂直行业,比如制造业、教育、金融。当然,只做 Claude Code 还不够。针对一些复杂任务场景,模型的能动性还不足,仍然需要补充模型能力,比如 SFT(监督微调)或强化学习(RL)来增强。
Karpathy 也提到,2024 年是 “everyone is releasing their own chat”,而 2025 年将会是 “everyone is releasing their own code”。也就是,未来每个人都会写自己的上下文工程,针对某个领域打造一个专属的 Claude Code。
另外,要把上下文工程做好,文科能力或许比纯技术能力更重要。语文、历史、社会学的功底,以及语言表达和创造新词汇的能力都极为关键。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-21
别再用老地图,寻找AI这片新大陆丨AI时刻
2025-08-21
GPT-5 提示工程指南
2025-08-21
Skywork技术论坛一手分享:Agent与多模态的落地真相|甲子光年
2025-08-21
企业微信,「奔向」AI一体化
2025-08-21
DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么?下一代国产芯片设计?
2025-08-21
快手发布SeamlessFlow框架:完全解耦Trainer与Agent,时空复用实现无空泡的工业级RL训练!
2025-08-21
携程旅游的 AI 网关落地实践
2025-08-21
不增加 GPU,首 Token 延迟下降 50%|LLM 服务负载均衡的新实践
2025-08-21
2025-05-29
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-07-29
2025-08-21
2025-08-20
2025-08-19
2025-08-19
2025-08-18
2025-08-18
2025-08-18
2025-08-15