推荐语
生成式AI的惊艳表现掩盖了预测式AI的实用价值,本文带你重新认识AI的真正潜力。核心内容: 1. 生成式AI与预测式AI的本质区别 2. 预测式AI如何默默改变我们的日常生活 3. 为什么预测式AI才是AI发展的未来方向
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
本文为《麻省理工科技评论》“纠偏热潮”(Hype Correction)专题系列的一部分,该系列旨在重置人们对 AI 的预期:AI 是什么、它能带来什么、以及我们接下来该走向何处。
2022 年 4 月 28 日,在华盛顿州斯波坎一场备受期待的演唱会上,音乐人保罗·麦卡特尼(Paul McCartney)用一项突破性的 AI 应用震惊了观众:他与已故多年的音乐搭档约翰·列侬(John Lennon)的“逼真呈现”同台演出。
借助音频与视频处理领域的最新进展,工程师从两人最后一次同台演出(1969 年伦敦)的原始素材中分离出列侬的声音与影像,并以几乎与真人无异的清晰度对其进行修复还原。
多年来,像我这样的研究者一直在教机器“看”和“听”,才让这样的时刻成为可能。当麦卡特尼与列侬仿佛跨越时空重聚时,场馆瞬间安静下来,许多观众落下眼泪。作为一名 AI 科学家、也是一位终身披头士粉丝,我由衷感激我们能共同经历这一真正改变人生的瞬间。
同年晚些时候,世界又被另一项重大突破吸引:AI 对话。随着 ChatGPT 的发布,历史上第一次,能够就几乎任何主题实时生成新的、与语境相关的回应的系统,面向大众广泛开放。数十亿人突然能够与 AI 互动。这点燃了公众对“AI 可能成为什么”的想象,引发了创意、希望与恐惧的爆炸式涌现。
我的博士研究方向就是 AI 语言生成(长期以来都被视为小众领域),看到我们走到今天这一步,我当然兴奋不已。但与这份惊叹相伴而来的,是越来越强烈的愤怒:媒体观点与“自封专家”的言论铺天盖地,他们一口咬定生成式 AI 能做到它根本做不到的事,还警告说不采用的人就会被时代抛下。
这种炒作助长了人们对 AI 到底是什么、以及它能做什么、不能做什么的集体误解。更关键的是,生成式 AI 是一种诱人的“干扰项”,让人忽视另一类最可能让你的生活变得更好,甚至拯救你生命的 AI:预测式 AI(predictive AI)。与为生成任务而设计的 AI 不同,预测式 AI 面对的是答案有限且已知的任务集合;系统只需要处理信息,判断哪个答案是正确的。一个最基础的例子是植物识别:你用手机摄像头对准一株植物,系统告诉你它是西部剑蕨(Western sword fern)。生成任务则不同,它没有一个有限的正确答案集合;系统必须把训练中学到的信息片段融合起来,生成例如一张全新的蕨类图片。
聊天机器人、换脸、合成视频背后的生成式 AI 技术,演示效果惊艳,能带来流量与销量,观众也容易由此放飞想象:超人级 AI 要么带来富足,要么带来毁灭。与此同时,预测式 AI 却在悄然改进天气预报与食品安全,帮助实现更高质量的音乐制作,协助整理照片,并准确预测最快的行驶路线。我们把预测式 AI 融入日常生活,常常甚至意识不到它的存在,这恰恰说明了它不可或缺的实用价值。
想要理解预测式 AI 的巨大进步及其未来潜力,我们不妨回看过去 20 年的轨迹。2005 年,我们还没法让 AI 区分一个人和一支铅笔。到了 2013 年,AI 依然无法可靠地在照片里识别一只鸟,甚至连行人和可乐瓶的差别都让系统困惑不已(也就是那时候我才意识到,如果人没有头,瓶子看起来确实有点像人)。把这类系统部署到真实世界,当时还像科幻小说一样遥远。
然而在过去 10 年里,预测式 AI 不仅把“识别鸟”做到了具体物种的精度,还迅速提升了攸关生命的医疗服务能力,比如识别可疑病灶和心律失常。得益于这项技术,地震学家能更可靠地预测地震,气象学家也能更可靠地预测洪水。面向消费者的技术在识别与分类上的准确率更是大幅飙升,从你哼一段旋律时你脑子里想的是哪首歌,到你开车时该避开什么物体,系统都能更准确地判断,这也让自动驾驶汽车成为现实。
在不远的将来,我们应该能够在肿瘤伤害任何人之前就准确检测出来,也能在飓风造成破坏之前很久就做出预报,从而实现世界各地许多人一生的夙愿。这或许不像生成一部自己的“吉卜力风”电影那样炫目,但绝对值得被认真看见,也值得被期待。
研究也表明,当预测式 AI 在受限的选项集合内引入某些生成式技术时,会变得非常有用。这类系统形态多样,从穿搭可视化到跨语言翻译都在其中。很快,预测与生成的混合系统将能让你实时“克隆”自己的声音去说另一种语言,这会成为旅行时极其出色的辅助工具,同时也伴随严重的冒充风险。在这一方向上仍有很大增长空间,但生成式 AI 只有在强有力的预测方法支撑下,才能持续交付真实价值。
为了理解这两大类 AI 的差异,想象你自己就是一个 AI 系统,任务是向别人展示“猫长什么样”。你可以采用生成式方法,从不同猫的图片里剪切、拼贴一些小片段(这些来源可能并不愿意被这样使用),拼出一幅看似完美的猫的形象。现代生成式 AI 能做出如此天衣无缝的“拼贴画”,正是它令人惊叹的原因之一。
你也可以采用预测式方法:只要找到一张现成的猫的图片,然后指给对方看即可。这种方法没那么炫,但更节能,也更可能准确,而且能恰当地承认原始来源。生成式 AI 的目标是创造“看起来真实”的东西;预测式 AI 的目标是识别“什么是真实的”。当涉及文本时,把生成系统误以为是在“检索”内容,实际上它是在“创造”内容,这种误解已经造成了严重后果,甚至导致司法裁决被撤回、科学论文被撤稿。
这种混乱背后,有一个推力是,人们在炒作 AI 时,往往不说明自己到底在说哪一种 AI(我猜很多人其实也不知道)。人们很容易把 AI 等同于生成式 AI,甚至等同于“生成语言的 AI”,并假定其他能力都会由此自然衍生出来。这种误解并非毫无来由:这个词直指“智能”,而我们对“智能可能是什么”的理解,又常常通过语言来中介(先剧透一句:其实没人真正知道智能是什么)。不过,“人工智能”(artificial intelligence)这个说法在 20 世纪 50 年代本就是刻意设计出来的,用来激发敬畏、暗示某种类人的东西。到了今天,它更多只是指一组用于处理数字数据的、彼此差异很大的技术。有些朋友觉得,叫它“数学的数学”反而更贴切。
把生成式 AI 当作最强、最“真”的 AI 形态,这种偏见令人担忧,因为它消耗的能源远高于预测式 AI 系统。更糟的是,这也意味着在违背原作者意愿的情况下,把现有的人类作品用于 AI 产品之中,并用 AI 系统去取代人类工作,而这些系统的能力本来就是靠这些作品才成为可能的,却没有任何补偿。AI 的确可能非常强大,但这不意味着创作者就该被剥削。
作为科技行业中的一名 AI 开发者,目睹这一切展开,我得出了一些关于下一步的重要经验。AI 之所以能吸引如此广泛的关注,显然与对话式交互的直觉性密切相关。但在当前的交互方式下,本来用预测方法就足够的地方,却被过度使用了生成方法,结果出现一种尴尬局面:用户被弄得更困惑,同时还付出了能源消耗、剥削与岗位替代等方面的沉重代价。
我们迄今看到的只是 AI 全部潜力的一点点。如今围绕 AI 的兴奋,更多反映的是它“可能成为”的样子,而不是它“已经是”的样子。基于生成的路线在消耗大量资源的同时,仍然在表征能力、准确性以及对被纳入系统的创作者意愿方面存在明显不足。
如果我们能把聚光灯从对生成式技术的炒作,转向那些已经在改变日常生活的预测式进展,我们就能打造真正有用、公平且可持续的 AI。那些帮助医生更早发现疾病、帮助科学家更早预报灾害、帮助普通人更安全地生活与出行的系统,才最有望带来最大的影响。
有益 AI 的未来,不会由最炫目的演示来定义,而会由那些安静、严谨、让技术值得信任的进步来定义。如果我们以此为基础,把预测能力的优势与更成熟的数据实践、以及更直觉的自然语言界面结合起来,AI 才可能真正开始兑现今天许多人所感知到的那份承诺。原文链接:
https://www.technologyreview.com/2025/12/15/1129179/generative-ai-hype-distracts-us-from-ais-more-important-breakthroughs/
