免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

DeepMind 前研究科学家:企业 AI 真提效,先把 “ KPI ”设对

发布日期:2026-01-03 08:26:55 浏览次数: 1517
作者:AI 深度研究员

微信搜一搜,关注“AI 深度研究员”

推荐语

DeepMind前科学家揭秘:企业AI落地难,问题出在KPI设定上!从神经科学视角看AI优化方向。

核心内容:
1. AI学习效率低下的根本原因是错误的学习目标设定
2. 大脑双系统协作机制对AI优化的启示
3. 企业如何为AI设定有效的"KPI"和奖励信号

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

全文 3,000字 | 阅读约 8 分钟

(前DeepMind神经科学家访谈精彩片段)

企业部署 AI ,普遍的感觉是:会说,但不会干。

最近,著名科技播客主持人 Dwarkesh Patel 发布了他与 Adam Marblestone 的长谈。

Marblestone 曾在 Google DeepMind 的神经科学团队做研究科学家,如今是 Convergent Research 的 CEO。

他从神经科学的视角,重新审视了企业 AI 落地难的这件事。

AI 学得快不快,关键不在模型有多大、技术有多新,而在你给它设定了什么样的学习目标。

就像团队管理,KPI 设错了,再努力也是白费。AI 也一样,损失函数、奖励信号这些“AI 的 KPI”,决定了它最终往哪个方向优化。

这背后的逻辑是什么?

AI 现在喂的数据已经够多了,但它不知道什么数据值得学。就像一个学生拼命刷题,却不知道哪些题型重要。

第一节|数据喂了十倍,能力没涨一倍,问题在哪?

过去几年,企业在 AI 上的投入越来越大。模型越来越强,算力越来越贵,训练数据越堆越多。

但落地的时候,很多人还是那个感觉:AI 会说,但不会干。

事实上,我们给大语言模型投喂的数据量,已经远超任何一个人类一辈子能接触到的信息总量。但它的能力,还远不如一个普通人。

问题出在哪?

Marblestone 把 AI 系统分成三个部分:

  • 架构(Architecture):有多少层,怎么连接
  • 学习算法(Learning Algorithm):反向传播还是别的什么
  • 代价函数(Cost Functions):训练它去做什么,奖励什么

他的判断是,前两个被过度关注,第三个反而被忽视了。

大家都在优化模型结构和训练方法,但最该优化的反而被忽视了:你到底在奖励什么。

为什么会这样?

因为机器学习喜欢数学上简单的损失函数。预测下一个词,算个交叉熵,这些都是计算机科学家喜欢的简单目标。

但大脑不是这样工作的。

自然进化给大脑设计了成千上万个不同的学习目标:这个脑区学什么,那个脑区学什么;三岁学什么,十岁学什么;什么情况该兴奋,什么情况该警惕。

Marblestone 形容它像一套预装的操作指南,精确规定了大脑的每个部分在每个阶段该关注什么。

第二节|大脑怎么做到的?靠的是双系统协作

为了解释这个大脑机制,Adam Marblestone 引用了前物理学家、现 AI 安全研究员Steve Byrnes 的一套理论。

这个理论把大脑分成两个系统:

  • 学习子系统:主要是皮层,负责学习世界模型,结构相对简单重复
  • 引导子系统:下丘脑、脑干、杏仁核等,负责提供先天的奖励信号

就像一对搭档:一个专注积累经验,另一个负责告诉它什么值得学

“引导子系统”不只是发信号那么简单,它有自己的感觉系统。

比如视觉,我们以为只有皮层在处理。但大脑深处还有一个更原始的视觉系统,叫上丘,天生就能检测面孔和威胁。当有小黑影快速靠近你的身体,上丘会直接触发退缩反射。这个反应比你意识到发生了什么还快。

这就是引导子系统在工作:小的、深色的、高对比度的、快速移动的=昆虫=危险。

但泛化是怎么发生的?

秘密在于:负责学习的部分会去预测那些天生反应。

还是刚才退缩的例子。当你退缩时,杏仁核会训练一个预测器:我快要退缩了吗?这个预测器接收的信息来自皮层。蜘蛛这个词、蜘蛛的图片、关于蜘蛛的书,甚至这段对话,都会输入给它。

所以你听到“你背上有蜘蛛”,即使没有真蜘蛛,也会触发预测器,进而激活类似的不适感。

泛化机制包括三个部分:

  • 引导子系统提供简单标签(危险/安全、喜欢/讨厌)
  • 学习子系统把标签连接到复杂的世界特征上
  • 预测器让这种连接可以泛化到新情境

人能从极少例子中学习,靠的就是这套泛化机制。

对此,Marblestone 还提供了一个生物学证据:引导子系统的细胞种类,比学习子系统多得多。

皮层的细胞类型相对统一,就像重复的 Transformer 层。但下丘脑、脑干这些引导子系统,有成千上万种不同的细胞,每一种对应一个特定的先天反应。检测盐味的,检测社交地位的,区分朋友和敌人的,都是不同的细胞在负责。

这么多种细胞,人类基因的信息量其实很少,不像大模型有海量训练数据,怎么能造出这么复杂的大脑?

答案是,人类进化不需要预先编码整个世界模型。

它只需要编码三样东西:一个可以学习的架构(皮层) 、一套丰富的奖励信号(引导子系统)、 一个连接机制(预测器)。

剩下的,交给学习。

因此,大脑的秘密不是结构有多复杂,而是知道该学什么。

第三节|企业 AI 的KPI,该怎么重新设计

那企业 AI 怎么办?

Adam Marblestone 指出了当前 AI 训练的现状:

“我们在大模型中根本没有价值函数。这种训练方式非常原始,比 10 年前的 AI用的方法还要简单。”

什么是价值函数?

简单说,就是让 AI 不只看眼前这一步对不对,而是评估这一步对长期目标有什么影响。

现在的训练方式是:整个对话轨迹解决了问题,就把这个轨迹里的每个词都加权。但 AI 不知道哪个词是关键转折,哪个词只是过渡,哪个决策会在 5 步后引发好结果。

它只知道这次成功了,不知道为什么成功。

而大脑有多层次的评估机制。有负责简单动作选择的部分,有负责建立奖励模型的部分,还有专门评估当前状态对长期目标价值的价值函数。

更关键的是,大脑不只是单向预测下一个词。

它可以全向推理。看到画面能预测声音,听到声音也能预测画面;知道目标,能反推路径;看到结果,能倒推原因。

Marblestone 说,大脑可以在任意方向上做预测。

大模型擅长从原因推结果,比如“他迟到了,所以___”,它能接“被批评了”。但如果反过来,告诉它“他被批评了’,让它推断前面可能发生了什么,就要弱很多。

因为大模型的训练方向是固定的:从左往右预测下一个词。

人却能灵活选择推理方向。看到结果能倒推原因,知道目标能反推路径。

所以 AI 缺的是两样东西:价值函数告诉它什么值得做,全向推理让它灵活达成目标。

那企业 AI 的 KPI 该怎么设计?

基于原文的思路,可能的方向包括:

1、引入价值函数

不只是这个任务做对了,不只评估这一步对不对,还要评估它对后续 5 步、10步的影响。在业务场景下,什么样的中间状态是有价值的?哪些信息值得记住,哪些可以忽略?

    2、设计分层的奖励信号

    借鉴大脑的双系统:基础层判断对错(客服回复是否解决问题),中间层关注业务目标(满意度、转化率、风险控制),高层对准战略目标(品牌形象、长期留存)。不同层次的奖励权重不同,在不同阶段启用。

    3、训练全向推理能力

    不只是从输入预测输出,还要能从目标倒推路径、从部分信息补全上下文、从约束条件生成方案。这可能需要在训练中移除固定的掩码,让模型学会从任意变量预测任意变量。

    4、探索行为克隆

    除了给 AI 标签(这个回复好或坏),更重要的是给它专家的思考路径:在哪个时刻关注什么信息,在哪些点放慢速度,决策边界在哪里。

    说到底,训练 AI 理解什么值得做对,为什么值得做对,以及这个“对”在整个业务流程里处于什么位置。

    企业 AI 提效,模型能力重要,但你给它设定什么样的评分体系,可能更重要。

    你奖励什么,它就会往什么方向优化。

    就像企业管理:KPI 设错了,团队再努力也会在把事做偏。

    • 奖励准确率,它可能变得保守;

    • 奖励效率,它可能牺牲质量;

    • 奖励用户满意度,它可能过度迎合。

    真正的挑战是设计一套像大脑那样丰富、分层、动态调整的奖励体系。这不是换个模型就能解决的。

    在你的业务场景里,什么才是真正值得 AI 去学、去记、去优化的,得想清楚。

    模型会变强,但方向得你给。

    结语|KPI 设对了,AI 才能学得快

    AI 现在的问题很清楚:数据喂得越来越多,能力涨得越来越慢。

    原因也很清楚:它不知道什么值得学。

    人脑的数据效率来自自然进化预装的复杂奖励体系。不同脑区、不同阶段、不同情境,有不同的学习目标。

    AI 只有一个简单目标:预测下一个词。

    这就是差距。

    Marblestone 的观点是:调模型、堆参数,不如重新设计评分标准。

    企业 AI 提效也一样。

    与其追求更大的模型,不如先想清楚:你在奖励 AI 什么?这套评分体系,能引导它做对的事吗?

    答案可能不在算力,在 KPI设得对不对。

    识自AI

    📮 本文由AI深度研究院出品,内容翻译整理自Adam Marblestone在Dwarkesh Patel播客的访谈等网上公开素材,属翻译分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。

    星标公众号,👆 点这里1. 点击右上角2. 点击"设为星标"AI深度研究员设为星标

    原文链接:

    https://www.youtube.com/watch?v=_9V_Hbe-N1A

    https://www.dwarkesh.com/p/adam-marblestone

    https://www.dwarkesh.com/feed?utm_source=chatgpt.com

    https://coefficientgiving.org/files/Research/Moral_Patienthood/Marblestone_et_al_%282016%29.pdf?utm_source=chatgpt.com

    来源:官方媒体/网络新闻,

    排版:Atlas

    编辑:深思

    主编:图灵

    --END--

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询