免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

谷歌DeepMind CEO 与Gemini负责人揭秘Gemini 3三大突破(对话实录)

发布日期:2025-11-20 07:19:04 浏览次数: 1556
作者:创头条New

微信搜一搜,关注“创头条New”

推荐语

谷歌DeepMind CEO与Gemini负责人首次全面揭秘Gemini 3的技术突破与AGI发展路径,展现AI领域的重大进展。

核心内容:
1. Gemini 3的核心能力升级与创新交互方式
2. 谷歌在AI领域的竞争态势与行业影响
3. 通往AGI的时间线与关键技术突破

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
在谷歌发布Gemini 3系列模型之后,《纽约时报》旗下科技播客《Hard Fork》发布特别节目,由主持人Kevin Roose和Casey Newton专访谷歌DeepMind首席执行官Demis Hassabis与谷歌Gemini团队负责人Josh Woodward。 

在这场独家对话中,谷歌DeepMind CEO Demis Hassabis和Gemini团队副总裁Josh Woodward首次全面揭秘了Gemini 3的技术突破、产品策略,以及通往AGI的路径。

他们坦言,距离AGI仍需要一到两个重大突破,时间线仍是5-10年,但Gemini 3已经让人们看到了这个未来的雏形。



以下为对话全文:

Casey:我们今天有一期特别的紧急播客,关于Gemini的发布。

Kevin:是的,这次备受期待的发布在硅谷AI圈引发了热烈讨论。我们终于要亲手体验真正的产品了。

Kevin:通常我们不会为了某个大型AI公司发布新模型就打破周五的发布计划,出一期特别节目。他们一直在发布各种模型。但这周我们认为值得专门谈谈Gemini 3,有几个原因。

首先,我们采访到了Demis Hassabis和Josh Woodward两位谷歌AI部门的核心高管,Demis是谷歌DeepMind的CEO,这是他们内部的AI实验室。

Josh Woodward是Gemini团队的副总裁,同时负责谷歌的其他一些项目。所以我们很高兴能和他们聊聊这次重大的模型发布。但我认为我们感兴趣的原因还不止这些。

Casey:是的,Kevin,一个重要的原因是,相比其他模型发布,这次Gemini 3似乎格外引起了谷歌竞争对手的关注

我们从其他AI实验室的员工那里听到很多传言,嗯,看起来Gemini 3在某些方面取得了突破,这可能对他们的业务不利。

我认为整个AI行业都有一种感觉:谷歌在AI领域挣扎了几年——他们推出了Bard和第一代Gemini,都遇到了一些问题。

大家一直觉得他们在追赶最先进的技术。现在问题是,这是不是意味着他们要夺回王冠了?

所以我们会和Demis、Josh深入讨论这些。但先让我们聊聊Casey,我们对Gemini 3了解多少。

他们本周早些时候举行了一场简报会,介绍了这个新模型及其能力。我们了解到了什么?

-1-

Gemini 3的核心能力

Casey:好的,就能力而言,这对我来说永远是最有趣的部分。谷歌分享了几个方面。首先,除了那些你能想到的常规升级,比如编码能力更强、氛围编程更好之外,它还会在你提问时生成新的交互界面

现在,你问大多数聊天机器人一个问题,它会用文本回复,可能会显示一张图片。

但据谷歌的说法,Gemini 3会直接为你构建定制化的界面

他们展示了一个例子,有人想了解画家梵高,Gemini 3就编写了一个交互式教程,包含各种图像和互动元素。

他们还展示了另一个例子,构建了一个针对百万美元以上房产的抵押贷款计算器,这是谷歌员工能想象的最低购房预算了。所以这些就是你可以期待在Gemini 3中看到的功能,Kevin。

Kevin:是的。我要说,简报会和谷歌在Gemini 3发布前分享的材料的主题就是:这个模型在几乎所有方面都比他们上一个模型Gemini 2.5 Pro更好

有几个引起我注意的基准测试,一个叫"人类最后的考试"(Humanity's Last Exam),这是一个非常难的跨学科考试,包含一系列问题,基本上是研究生或博士水平的。

他们之前的模型Gemini 2.5 Pro在这个测试中得分约21.6%,而Gemini 3 Pro得分37.5%

基本上所有这些基准测试都是这个趋势。他们给出了十几个不同基准测试的例子,新模型都轻松击败了旧模型。

对很多人来说,这可能无关紧要。大多数使用谷歌AI产品的人可能不会去解决物理学中的新问题。

但他们的基本宣传就是:这是一个最先进的模型,你能用ChatGPT、Claude或旧版Gemini做的任何事情,用Gemini 3 Pro都能做得更好

他们还谈到了正在测试的Gemini智能体,它能做一件我一直期待有人做的事:浏览你的收件箱,理解内容,提议回复,把邮件分类整理,真正帮你控制收件箱。

这是我个人从未做到过的。我们基本上只看到了几张动图演示,但这肯定会是我拿到Gemini 3后第一个尝试的功能。

Casey是的,我们应该说,他们不会立即向所有人推出。本周它会在Gemini应用中提供,也会在AI模式中提供,那是谷歌主搜索引擎旁边的一个标签。它也会在各种产品中向开发者提供。

但他们没有说什么时候会进入像Google Docs或Gmail中的Gemini集成,这些每天有数十亿人使用的非常受欢迎的产品。

但我觉得有趣的是,他们已经把这个模型带到了谷歌搜索,虽然是在AI模式中,而不是主搜索栏。这对我来说意味着,他们觉得可以以足够低的成本提供这个模型,使其有可能被数十亿人使用,而不会让他们的服务器崩溃或产生数十亿美元的成本。

Kevin:是的,到目前为止他们说AI概览(AI Overviews)的使用量一直在增长,每个季度他们都继续赚更多钱。所以这对他们来说效果不错,对互联网其他部分来说不太好,但对谷歌来说效果很好。

Casey:是的,但我认为这就像,显然谷歌在这里相对于竞争对手的巨大优势在于,他们有每天被数十亿人使用的产品,随着时间推移,他们可以把Gemini 3塞进这些产品,获得越来越多的使用量和数据,并用这些来改进他们的模型。

Kevin:这就是为什么我们总是告诉学生,当他们向我们寻求建议时:第一步,建立一个非法垄断。

Casey:是的。说到学生,谷歌本周宣布的另一个重要消息是,他们将向所有美国大学生提供一年免费的Gemini付费版本

我认为这是个聪明的举动。我对此感觉有点不舒服,基本上就是告诉学生,嘿,为什么不用这个来做一些家庭作业,也许帮你考试。我们会给你第一次免费体验。

Kevin:是的,你知道,我在今天早上的简报会上也注意到,我相信有三个不同的人使用了学习任何东西。

这似乎已经成为谷歌信息传递中非常突出的一部分,他们把Gemini呈现为一个学习工具,这也许只是"帮你做作业工具"的委婉说法。我不知道。

Casey:是的。好的,这就是我们对Gemini 3的了解。一旦它在周二完全发布,我们将进行自己的测试和评测。但现在,我们想给你们介绍基础知识,还有我们对谷歌DeepMind的Demis Hassabis和Josh Woodward的采访。

在我们开始之前,我们应该做一下声明。我为《纽约时报》公司工作,该公司正在就大型语言模型的训练起诉OpenAI和微软,我的男朋友在Anthropic工作。

-2-

对话:Demis Hassabis & Josh Woodward

主持人:Demis和Josh,欢迎来到Hard Fork。

Demis & Josh:很高兴来这里。谢谢。

主持人:两年前,Sundar Pichai告诉我们,Bard是一辆改装过的本田思域,正在与更强大的车竞争。那Gemini 3是什么车?

Josh:这是个好问题。Demis,你想回答吗?

Demis:嗯,我希望它比本田思域快一点。你知道,我不太喜欢用车来类比……也许它是那些很酷的直线加速赛车之一。

主持人:人们对这个模型非常兴奋。我们从一些早期测试者那里听到反馈,显然你们展示了很多基准测试,非常令人印象深刻。在具体层面上,Gemini能做哪些以前的AI模型做不到的事情?

Josh:好的,我来说几点突出的。第一,我们开始看到这个模型在推理方面真正表现出色,能够同时思考很多步骤有时过去的模型会失去思路,失去追踪。这个模型在这方面好得多。

第二点你明天也会看到,就是各种新的生成式界面。这是我们迄今为止在创建新型界面方面最好的模型它为人们提供真正定制化的设计和对问题的回答。

第三点我要说的是,我们在编码本身投入了大量精力所以你会看到很多编码例子,像Google Anti-Gravity这样的新产品也会展示这一点。

主持人:有一种讨论认为,对于普通用户来说,聊天用例可能已经解决了,普通用户几乎想不出一个问题,能让新模型生成与上一代明显不同的结果。这对你们来说在多大程度上是真的?普通人真的会注意到差异吗?

Josh:是的,我们在一些测试中看到的,Demis也可以补充,我认为这些模型真的——对我们来说,这个模型更简洁、更有表现力,开始以更容易理解的方式呈现信息我认为对大多数人来说,这会是一个很大的直接影响。

然后我认为有趣的是,这些模型如何开始与其他类型的信息互动。所以我们经常谈论学生如何能够用这个模型学习,或者这个模型如何在你的许可下连接到你在其他谷歌产品中可能拥有的其他类型的数据。这些是我们开始展示的方式,我认为它已经超越了标准的文本问答来回。

Demis:是的,我想补充一点,就是它的总体可靠性。你使用时会注意到。我认为我们在内部称之为"人设"(persona)的东西上下了很大功夫,就像它的风格。

我认为它更简洁,更切中要点,很有帮助。我觉得它的风格更好。我发现用它来头脑风暴和使用更愉快。

然后我认为,在一些方面几乎有一个阶跃变化。我觉得它在实用性上跨越了某种门槛,比如氛围编程(vibe coding)

我一直在重新学习游戏编程。我打算在圣诞节期间给自己设定一些项目,因为我觉得它在前端和这类事情上已经达到了一个非常有用和强大的水平,而之前的版本可能没那么好。

-3-

通往AGI的路径

主持人Demis,上次你上我们的节目是在5月,你说你认为我们距离AGI还有5到10年,而且可能需要一些重大突破Gemini 3有多好,观察它的表现,是否改变了这些时间线?或者它是否包含了你认为必要的那些突破?

Demis不,我认为它完全按计划进行,如果你明白我的意思。我认为我们对这个进展非常满意。我认为这是一个绝对惊人的模型,完全符合我的预期和我们过去几年的发展轨迹,实际上自从Gemini开始以来,我认为这是业内进步最快的。我认为我们会继续这个轨迹,我们期待这会持续。

除此之外,我仍然认为还需要一到两个额外的东西,才能真正获得你期望从通用智能中得到的全面一致性,以及在推理、记忆方面的改进,也许还有像世界模型这样的想法——你也知道我们正在用Simmer和Jeannie研究这些。它们会建立在Gemini之上,但以各种方式扩展它。我认为其中一些想法也是完全解决物理智能等问题所必需的。

所以两者都是真的。我对Gemini 3的进展非常满意,我认为人们会相当惊喜,但它符合我们预期的进展轨迹。这意味着仍然是5到10年,可能还需要一到两个突破

-4-

关于Gemini的"人设"

主持人你提到了Gemini 3的风格。最近有很多关于AI伴侣的讨论,人们与它们建立的关系。你如何看待Gemini 3的个性,你希望用户与它建立什么样的关系?

Josh:我要说,在应用本身中,我们在团队中很大程度上把它看作一个工具,或者说是你用来处理和应对一天工作的东西。

所以无论是帮助你解决不同类型的问题,还是帮助你创造东西,这真的是我们看到它真正擅长的地方,也是我们希望看到的方向。

我认为如果你放大来看,如果你看Gemini或我们的其他一些项目,比如Notebook LM或Flow,我们真的在试图思考AI如何成为你工具箱中的这个超级力量、超级工具,无论你是用于写作、研究、制作电影还是其他什么。这才是我们真正关注的地方。

我认为随着时间推移,我们团队真的很感兴趣能够追踪像"我们帮你一天完成了多少任务"这样的指标。

这是一种新型指标,我认为我们对此感到兴奋,也是原始谷歌搜索工作方式的某种延续,你来到它这里,你试图获得一个答案或被发送到一个页面,然后从那里继续。

主持人:这一切听起来都很好很负责任,但我想知道,你们不做一个色情伴侣,是不是放弃了很多病毒式传播的参与度。

Josh:无可奉告。

-5-

谷歌是否领先AI竞赛?

主持人你们的一些竞争对手在Gemini 3发布前的几天和几周里非常紧张,我认为他们开始听到和我们一样的传言,说这个模型相当不错。也许叙事正在从谷歌在AI领域追赶,转变为现在在竞赛中处于领先地位,或至少处于领导地位。你们觉得谷歌现在在AI竞赛中领先吗?

Demis:看,你们都很清楚,这是一个非常激烈的竞争环境,可能是有史以来最激烈的。所以永远不能……真正唯一重要的是你的进步速度,对吧,从你所在的位置。这就是我们关注的,我们对此非常满意

我的意思是,我真的不把它看作是,你知道,我们重新领先了之类的。我们一直在这个研究领域处于先锋地位。我认为这就像确保这在下游反映在我们所有的产品中。我认为我们真的进入了状态。我认为你实际上在去年就看到了这一点。我们在这方面越来越好。

就像GDM(谷歌DeepMind)是谷歌的引擎室。当然,有Gemini应用,有Notebook LM,这些AI优先的产品,但也在为所有这些令人惊叹的现有谷歌产品提供动力,无论是地图、YouTube、安卓,当然还有搜索,带有AI优先的功能,实际上在某些情况下,从AI优先的角度重新构想事物,通常Gemini在后台运行。

这进展得非常好。我认为我们只是完成了这个进化的一半,但看到我们的用户在看到每一个新功能时获得的价值和兴奋,这非常令人兴奋,例如,工作空间、Gmail等等。那里几乎有无限的可能性。所以我们对此非常兴奋,还有所有这些我们也在想象和原型制作的AI优先产品。

-6-

历史学家的惊喜体验

主持人: 我们上周节目请了一位历史学家,他在 AI Studio 里用了一个未发布的谷歌模型。他被震惊了,因为那个模型能够转录非常古老的文件,并正确推理出1800 年代加拿大皮毛贸易中的糖分测量单位。你能告诉我们,这个人用的是 Gemini 3 吗?

Josh: 这个我不确定。但我可以说,这个模型在建立这种连接方面确实非常惊人。我不知道那位历史学家是否用了旧文件或日记的照片……

主持人: 对,他就是这么做的。

Josh: 那很有可能就是了。它在这方面非常擅长。像我这样字迹很差的人,拍一页笔记,它也能毫不费力地处理。

-7-

关于成本、搜索与 Scaling Laws

主持人: 你们提到要把这个模型整合到搜索的 AI 模式中。这是否意味着你们找到了一种比以前的模型更高效、更便宜的方法来服务这个模型?

Demis: 我觉得我们总是处于前沿。除了模型性能,我觉得我们在模型效率(efficiency)方面也做得非常好。我们开创了许多蒸馏技术和其他技术。这不仅是为了 AI 概览(AI Overviews)这种需要服务数十亿用户的极端用例,也是为了我们的云客户。

我们一直试图处于成本与性能的帕累托前沿(Pareto frontier)

当然,我们今天只发布了 Pro,但我们也正在为 3.0 时代开发其他系列的 modello。

主持人: 每次看到新的前沿模型发布,我们都要重新讨论缩放定律(Scaling Laws)

我们是否开始看到边际收益递减?我能预想到推特上肯定会有人对此发表看法。你们怎么看 Gemini 3 与这个问题的关系?

Demis: 我们对 Gemini 3 相对于 2.5 的进步非常满意。就像我说的,这符合预期。但这并不意味着出现了“收益递减”。

当人们听到收益递减时,他们想的是“归零”还是“指数级增长”。但中间还有一种情况:即使不是指数级翻倍,它仍然非常值得做,投资回报率极高。 我认为我们正处于这个阶段。

而且,正如我所说,要一直通往 AGI,我的怀疑是还需要一两个研究突破。但在此期间,你需要尽可能大规模的基础模型,我们仍然看到了巨大的进步。

-8-

安全和泡沫

主持人: 在你们展示的众多基准测试中,哪一个对普通用户最重要?

Josh: 这是个好问题。我觉得大多数人不会像我们一样盯着基准测试看,它们只是代理指标。

比如在 LM Arena 上突破 1500 ELO 分这类事很棒,但真正重要的是产品中的用户满意度。让我们感到鼓舞的是,这两者是同向发展的。

主持人: 随着模型能力的提升,有什么新的危险能力或安全隐患吗?

Demis: 我们在这个模型上花了很长时间,因为它是一个前沿模型。正如 Josh 所说,我们不仅仅看基准测试,我们花了很多时间与安全机构和外部测试人员进行安全测试。我会说这是我们目前测试最彻底的模型。

特别是我们努力改进了工具调用(tool call)函数调用的能力。这对于编程和推理非常重要,但也让它在像网络攻击(cyber)等风险较高的事情上更具能力。所以我们在提升这些维度的同时必须加倍谨慎。

主持人: 我们处于 AI 泡沫中吗?

Demis: 这是一个太二元化的问题。我的观点是,AI 行业的某些部分可能处于泡沫中。比如有些种子轮融资拿到几百亿美元,但除了团队什么都没有,这可能是泡沫的迹象。

但另一方面,即使不谈 Gemini,看看机器人技术、游戏、DeepMind 在药物发现(Isomorphic)和自动驾驶(Waymo)方面的工作。这些领域需要时间成熟,但我认为这里面有半打到一打的领域会发展成数千亿美元的业务。

而在近期,我们有谷歌的“引擎室”策略,把 AI 推送到数十亿用户的产品中,这会带来近期的收入和回报。所以无论是否有泡沫,我们的工作都是在两种情况下获胜。

主持人 好的,想象一下马上就是感恩节了,地点是湾区。如果有听众想在饭桌上转移大家对政治的注意力你会建议他们展示 Gemini 3 的什么功能来震惊全场?

Josh: 我不知道能不能拯救感恩节,但这可能会带来一些笑声。Gemini 的图像模型仍然是世界上最好的。

我会说,拿出你的手机拍张自拍,把你自己放进画面里进行编辑。人们仍然非常喜欢这么做,这很有趣。然后你可以顺便展示 Gemini 3 的其他能力。

主持人: 听到了吗各位?用Nanobanano来拯救感恩节晚餐吧。 先生们,谢谢你们。

Demis & Josh: 谢谢邀请。


.END.




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询