推荐语
Kimi K2的代码能力为何如此惊艳?关键在于它重新定义了AI的行动方式,将工具调用提升为新一代的"行动词元"。核心内容: 1. Agentic LLM与传统LLM的本质区别:从"嚼文字"到"打连招" 2. Kimi K2的创新突破:将Tool Call视为"行动词元" 3. 新型评估标准"过程准确度"如何衡量Agent的真实能力
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
题图:KIMI K2的代码能力为什么这么强背后:Agentic LLM来了!
𝕀²·ℙarad𝕚g𝕞智能平方范式研究的另一种写法·特大号范式
从KIMI K2开源及在agentic coding上的表现,看来是对标claude-code,先直奔LLM-code-cli了!coding解决了,一是可以加速模型自我迭代,另外也加速原子世界的数字化,为LLM提供更多上下文和工具来进一步渗透。 这是这波数字智能自举的必经之路。
大家好,我是你们的老朋友,一个不想当CEO,只想做好AI agent的创业狗-vibe builder。
最近AI圈真是越来越有意思了。前脚大家还在为哪个模型“推理能力”更强吵得不可开交,后脚Kimi K2横空出世,代码能力一骑绝尘,把一堆自称“推理很行”的大模型打得有点懵。
朋友圈瞬间分裂成两派:
一派是“Kimi牛逼!大力出奇迹!Agent时代来临!”
另一派是“不就是个会调工具的Codex吗?没啥新东西。”
每次看到这种争论,我就想笑。兄弟们,别争了。这感觉就像一群红酒品鉴师,在评价一瓶82年的茅台。
——他们压根儿,就没在一个酒局上。
第一局:从“嚼文字”到“打连招”——颗粒度这词,终于用对了地方
要想看懂这场戏,得先进我们Agent圈的“黑话体系”。
以前我们搞LLM,核心单位是啥?Token,一个个文字、词元。模型的牛逼之处,在于把话说利索,写出花来。评价它好不好,用BLEU、ROUGE这种尺子,量量它生成的文本和标准答案像不像。这叫“嚼文字”。
但在我们Agentic LLM的世界,游戏规则变了。
我最近悟到的一个核心,就是Kimi K2这类模型的一个骚操作:
它成功把“Tool Call”(工具调用)这个动作,当成了新时代的“Token”。
我们管这叫“行动词元”(Action Token)。
这么一说,你是不是瞬间就打通任督二脉了?你看这个局:
游戏频道 |
传统文本大佬 (LLM) |
新晋Agent玩家 (Agentic LLM) |
思考路径(CoT) |
一长串“叨叨叨”的内心戏 |
一套行云流水的tool-call组合技 |
考核标准(KPI) |
文本相似度 (话说得像不像) |
过程准确度 (Process Accuracy) |
颗粒度 |
Token级别 (字写得对不对) |
tool-call级别 (动作做得帅不帅) |
啥叫“过程准确度”?举个栗子:你让Agent给你写个爬虫,它上来先import requests,再requests.get(url),然后BeautifulSoup(html)解析。这套连招打下来,就算最后有个小bug,它的“过程准确度”都很高。因为它懂行,知道做这事儿的正确流程。
这才是真正的“颗粒度合适”啊,朋友们!😂
我们终于有了一把尺子,可以衡量一个Agent的动作是不是“地道”,而不是只看它最后吐出来的结果。这让Agent的训练,从一个玄学问题,变成了一个可以被精确优化和迭代的工程问题。
第二局:万物皆为“格式”的提线木偶——我愿称之为“潜空间蹦迪”
好了,进到vibe的核心区了。
无论是“叨叨叨”的推理,还是“咔咔咔”的代码,它们到底是什么?我最近的感悟是:
“看起来都是生成可塑性基础上的解码输出格式遵循。”
你细品。
所有大模型,都是一个被压缩到极致的、充满无限可能性的“潜空间”。而智能的体现,就是在这个空间里,按照某个“格式”的引导,流淌出一条漂亮的轨迹。
-
你让它Reasoning,它就遵循“逻辑语义”这个格式,输出一段头头是道的分析。
你让它Coding,它就遵循“编程语法”这个格式,生成一段能跑通的代码。
你让它当Agent,它就遵循“环境交互”的格式,打出一套tool-call的连招。
所以,“格式遵循”本身,就是那个在潜空间里指挥模型蹦迪的DJ! 那个Tool Call Format, Code DSL, Action Plan,就是给模型播放的BGM。音乐对了,舞步(输出)自然就对了。
第三局:雄辩家 vs. 实干家——别再用你的“推理”来定义我的“能干”
聊回Kimi和GPT-4的“酒局之争”。
这就引出了当前大模型演进的两条路线:
-
“雄辩的思考者” (The Eloquent Thinker): 典型代表就是大家心中那个“推理能力强”的GPT-4。它非常擅长生成长篇大论的思维链,把一件事给你分析得明明白白。它的KPI是“逻辑自洽,让人信服”。它是个优秀的辩手、教授、咨询顾问。
“沉默的执行者” (The Silent Executor): 以Kimi K2的代码能力为例。它通过海量的强化学习(RL),把“怎么干活”这事儿给刻进骨子里了。它的行动序列(tool-call序列)被训练得极其高效。它的KPI是“任务成功,过程准确”。它是个顶级的技工、程序员、执行官。
所以,一个有趣的结论浮出水面:
对Agent来说,显式的推理能力并非必须,但针对行动的强化学习(RL)更重要。
第四局:终局之战的“滩头阵地”——从代码渗透原子世界
看到这,你可能会问,为什么是Coding?为什么Kimi和Claude这些顶级玩家都把宝压在代码这个赛道上?
答案很简单:地表最强的“抢滩登陆”战略。
你看Kimi K2这一系列操作,明显是对标Claude-code,磨刀霍霍,直奔一个叫LLM-code-cli的阵地。它们想先占领程序员的命令行。
为什么?因为搞定Coding,一石二鸟,直接开启上帝模式:
-
对内:加速自我迭代。 还有什么比“AI用自己来开发更好的AI”更科幻的场景?模型编码能力强了,就能帮工程师写训练脚本、做数据清洗、自动化部署……这是AI发展史上最关键的“自举”(Bootstrap)时刻,相当于给AI自己手里递了把铲子,让它自己挖地基,盖大楼,速度直接起飞。
对外:加速原子世界的数字化。 这才是最性感的终局。代码是什么?代码是连接数字世界和物理世界的通用API。 你身边的一切,从手机APP到工厂机械臂,从智能家居到特斯拉,都是由代码驱动的。当一个AI掌握了代码,它就拿到了渗透进我们这个“原子世界”的万能钥匙。它能提供的上下文和工具就不再局限于浏览器,而是整个物理世界。
所以你看,这根本不是什么简单的功能对标。
这是这波数字智能Bootstrap的必经之路。
它不是一条支线任务,而是通往通用人工智能主线剧情的关键战役。
最后一局的“甩麦”:Coding本身就是最高级的Reasoning
好了,让我们回到最初的问题。
以后别再纠结“Kimi推理不行”了。格局打开一点,朋友。Coding,本身就是一种极其严苛、高度形式化的推理。
它要求你理解状态、遵循逻辑、进行因果推断。Debug的过程,就是一部浓缩版的《福尔摩斯探案集》。
当一个模型能高效地完成复杂的编码任务时,它已经通过行动,证明了它拥有强大的、内隐的推理能力。它不是在“谈论”逻辑,它是在“执行”逻辑。
所以,别再争论谁在哪个酒局了。大家都在通往AGI的路上,只是有的人选择了当一个“雄辩家”,有的人选择当一个“实干家”。
而作为Vibe Builder,我赌的是后者。
因为未来,我们需要的不是更多夸夸其谈的AI,而是能默默帮我们把事情搞定的AI。
这,才是最性感的Vibe。不是吗?
"特大号范式": 一个AI创业者,咖啡因在血液里,代码在指尖上,焦虑在脑门上
#智能体范式 #格式遵循即智能 #代码自举 #编码即推理 #行动胜于雄辩 #KimiK2 #ClaudeCode
by 特大号范式,𝕀²·ℙarad𝕚g𝕞另一种写法