支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Gemini Diffusion:1500 token/秒,快如闪电!

发布日期:2025-05-22 03:04:10 浏览次数: 1578 作者:AGI Hunt
推荐语

谷歌DeepMind最新文本生成技术,挑战传统语言模型,速度提升5倍!

核心内容:
1. Gemini Diffusion:将扩散技术应用于文本生成的革命性尝试
2. 独特的生成机制:先初始化为噪声,再逐步净化形成完整文本
3. 官方基准测试:性能与Gemini 2.0 Flash-Lite相当,速度提升5倍

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

谷歌推出革命性文本扩散技术!

你可能没注意的是,Google DeepMind 在 I/O 2025 上发布了一个重磅实验性模型——Gemini Diffusion!

一个将扩散(diffusion)技术用于文本生成的全新尝试!

这或许是一个意义重大的技术突破。

扩散模型在图像生成领域已经证明了其强大的能力(如 Stable Diffusion、DALL-E),但将其应用于纯文字生成,这算得上是对传统语言模型范式的重大挑战。

为什么这么快?

传统的自回归语言模型(如 GPT-4、Claude)生成文本的方式是从左到右顺序生成每个标记,类似于人类的写作过程。

也就是模型每多生成一个token,都得先得到其左边所有的token,然后再将所有当前的token 全部送进神经网络,再通过预测得到下一个token.

而 Gemini Diffusion 采用了完全不同的方法:它不是逐个标记生成,而是先将整段文本初始化为「噪声」,然后通过多次迭代,逐步将这些噪声「净化」,最终形成有意义的完整文本。

这种方法带来了显著的性能提升:官方测试数据显示,Gemini Diffusion 每秒能生成约 1500 个token

比现有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍

核心能力

据 Google DeepMind 的技术介绍,Gemini Diffusion 具备三大关键优势:

  1. 超高响应速度:显著快于谷歌现有的最快模型

  2. 更高文本连贯性:能够一次性生成整块标记,而非逐个生成

  3. 迭代自我修正:在生成过程中进行错误纠正,确保输出的一致性

特别是对于编程和数学这类需要高度逻辑一致性和多次验证的任务,扩散模型展现出了明显的优势。

@amirkdev 提出了一个有趣的问题:

「对于编程来说,它会不会与自己争论哪种括号风格最好?」

这是一个幽默却也颇有洞察的问题——由于并行生成的特性,扩散模型能够在多个迭代步骤中全局优化整段代码,包括保持一致的编码风格。

性能相当,但快如闪电

值得注意的是,尽管 Gemini Diffusion 采用了全新的生成机制,但在标准基准测试上与 Gemini 2.0 Flash-Lite 的表现相当接近:

基准测试
Gemini Diffusion
Gemini 2.0 Flash-Lite
LiveCodeBench (v6)
30.9%
28.5%
BigCodeBench
45.4%
45.8%
HumanEval
89.6%
90.2%
AIME 2025
23.3%
20.0%

注意:两者性能相当,但 Gemini Diffusion 的速度优势高达 5 倍!

官方提供了详细的基准测试结果:

数据显示 Gemini Diffusion 在大多数指标上与 Gemini 2.0 Flash-Lite 表现相当,且在 AIME 2025(数学)测试上略有优势。

速度突破的技术原理

网友@karthik_dulam 也好奇提问:

「谁能解释为什么扩散语言模型能够快一个数量级?」

那么,为什么扩散模型在文本生成领域能实现数量级的速度提升呢?

据分析,这涉及四个核心技术「加速机制」:

1. 并行解码架构

自回归模型:必须按顺序生成标记,后一个标记依赖前一个的完成。

扩散模型:整句话同时处理,所有位置并行进行噪声去除。

@itsArmanj 给出了推测性的分析:

「帮我理解:如果你让 Transformer 计算二乘三,它会推理出 23=,然后下一个标记是 6。扩散模型如何在形成 23 之前就得出 6?」

事实上,扩散模型不依赖顺序推理,而是在多轮迭代中优化整个序列。

它先生成包含噪声的「候选答案」,然后通过多步去噪过程,确保整个表达式和答案在数学上的一致性。

2. 可调迭代步数

Gemini Diffusion 仅需约12步迭代就能生成高质量文本,而自回归模型处理一个包含1000个标记的段落则需要1000次顺序处理。

3. 高效算子融合

扩散模型采用双向注意力而非单向注意力机制,不需要维护 KV-cache,更适合充分利用 GPU/TPU 的并行计算架构。

@LeeLeepenkman 观察到:

「我们又回到了扩散器和 DIT 块的路线。之前大家都在尝试自回归图像生成,因为 4oimage 采用了这种方式,但当你深入思考或实际尝试时会发现这种方式相当缓慢。通过大规模扩展扩散模型,我们或许能达到这种逻辑和文本精度,就像实现逼真的光照一样。」

通过规模扩展,扩散模型将有可能达到与自回归模型相同的逻辑推理能力和准确性,同时保持其显著的速度优势。

4. 计算资源优化

扩散模型仅在最后一步将输出映射到词表,显著减少了计算开销。

技术路线对比:扩散与自回归的范式之争

维度
扩散语言模型 自回归 Transformer
生成流程
并行:整句初始化为噪声,迭代去噪
串行:逐个标记顺序生成
延迟
约 12 步迭代,与序列长度基本无关
与序列长度呈线性增长
可控性
基于梯度优化,更易实现精确控制
主要依赖 RLHF 和提示工程
成熟度
处于实验阶段,尚需验证
技术成熟,已广泛应用

@TendiesOfWisdom 提出了一个富有启发性的类比:

「科幻电影《降临》中的外星人文字 = 新的扩散语言模型?他们的圆形文字一次性传递完整概念;这些模型并行迭代达成连贯性,抛弃了逐步生成标记的方式。非线性思维与 AI 的下一波浪潮相遇。」

这个比喻倒是有些意思,科幻电影《降临》中外星人的圆形文字能够一次性表达完整概念,扩散语言模型也采用「非线性」方式同步生成整段内容。

跨模态统一的技术趋势

值得关注的是,Google 正将扩散技术统一应用于文本(Gemini Diffusion)、图像(Imagen 4)和视频(Veo 3)三大领域,这显然是在构建一个基于扩散技术的全模态 AI 生态系统。

Google 尚未发布 Gemini Diffusion 的详细技术论文,仅有一篇简单的产品介绍链接:

https://deepmind.google/models/gemini-diffusion/

不过,此前也有相关的技术路线研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。

目前,Gemini Diffusion 仅向有限的合作伙伴开放测试,但 Google 已开放了候补名单供研究者和开发者注册。

我已经排上队了,链接在此:

https://docs.google.com/forms/u/0/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/formResponse

这次的Gemini Diffusion,展示的不仅是速度的提升,更可能是生成范式的根本性变革。

这,或将会是个有趣的实验对象。

而随着扩散模型在文本生成领域应用的开启,我们可能正在见证 AI 生成技术的又一次革命性转变。

?

?

?

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的知识星球中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)

欢迎你的加入!也欢迎加群和2000+群友交流


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询