我要投稿

Gemini Diffusion：1500 token/秒，快如闪电！

发布日期：2025-05-22 03:04:10 浏览次数： 2707

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

谷歌推出革命性文本扩散技术！

你可能没注意的是，Google DeepMind 在 I/O 2025 上发布了一个重磅实验性模型——Gemini Diffusion！

一个将扩散（diffusion）技术用于文本生成的全新尝试！

这或许是一个意义重大的技术突破。

扩散模型在图像生成领域已经证明了其强大的能力（如 Stable Diffusion、DALL-E），但将其应用于纯文字生成，这算得上是对传统语言模型范式的重大挑战。

为什么这么快？

传统的自回归语言模型（如 GPT-4、Claude）生成文本的方式是从左到右顺序生成每个标记，类似于人类的写作过程。

也就是模型每多生成一个token，都得先得到其左边所有的token，然后再将所有当前的token 全部送进神经网络，再通过预测得到下一个token.

而 Gemini Diffusion 采用了完全不同的方法：它不是逐个标记生成，而是先将整段文本初始化为「噪声」，然后通过多次迭代，逐步将这些噪声「净化」，最终形成有意义的完整文本。

这种方法带来了显著的性能提升：官方测试数据显示，Gemini Diffusion 每秒能生成约 1500 个token！

比现有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍！

核心能力

据 Google DeepMind 的技术介绍，Gemini Diffusion 具备三大关键优势：

超高响应速度：显著快于谷歌现有的最快模型
更高文本连贯性：能够一次性生成整块标记，而非逐个生成
迭代自我修正：在生成过程中进行错误纠正，确保输出的一致性

特别是对于编程和数学这类需要高度逻辑一致性和多次验证的任务，扩散模型展现出了明显的优势。

@amirkdev 提出了一个有趣的问题：

「对于编程来说，它会不会与自己争论哪种括号风格最好？」

这是一个幽默却也颇有洞察的问题——由于并行生成的特性，扩散模型能够在多个迭代步骤中全局优化整段代码，包括保持一致的编码风格。

性能相当，但快如闪电

值得注意的是，尽管 Gemini Diffusion 采用了全新的生成机制，但在标准基准测试上与 Gemini 2.0 Flash-Lite 的表现相当接近：

基准测试	Gemini Diffusion	Gemini 2.0 Flash-Lite
LiveCodeBench (v6)	30.9%	28.5%
BigCodeBench	45.4%	45.8%
HumanEval	89.6%	90.2%
AIME 2025	23.3%	20.0%

注意：两者性能相当，但 Gemini Diffusion 的速度优势高达 5 倍！

官方提供了详细的基准测试结果：

数据显示 Gemini Diffusion 在大多数指标上与 Gemini 2.0 Flash-Lite 表现相当，且在 AIME 2025（数学）测试上略有优势。

速度突破的技术原理

网友@karthik_dulam 也好奇提问：

「谁能解释为什么扩散语言模型能够快一个数量级？」

那么，为什么扩散模型在文本生成领域能实现数量级的速度提升呢？

据分析，这涉及四个核心技术「加速机制」：

1. 并行解码架构

自回归模型：必须按顺序生成标记，后一个标记依赖前一个的完成。

扩散模型：整句话同时处理，所有位置并行进行噪声去除。

@itsArmanj 给出了推测性的分析：

「帮我理解：如果你让 Transformer 计算二乘三，它会推理出 23=，然后下一个标记是 6。扩散模型如何在形成 23 之前就得出 6？」

事实上，扩散模型不依赖顺序推理，而是在多轮迭代中优化整个序列。

它先生成包含噪声的「候选答案」，然后通过多步去噪过程，确保整个表达式和答案在数学上的一致性。

2. 可调迭代步数

Gemini Diffusion 仅需约12步迭代就能生成高质量文本，而自回归模型处理一个包含1000个标记的段落则需要1000次顺序处理。

3. 高效算子融合

扩散模型采用双向注意力而非单向注意力机制，不需要维护 KV-cache，更适合充分利用 GPU/TPU 的并行计算架构。

@LeeLeepenkman 观察到：

「我们又回到了扩散器和 DIT 块的路线。之前大家都在尝试自回归图像生成，因为 4oimage 采用了这种方式，但当你深入思考或实际尝试时会发现这种方式相当缓慢。通过大规模扩展扩散模型，我们或许能达到这种逻辑和文本精度，就像实现逼真的光照一样。」

通过规模扩展，扩散模型将有可能达到与自回归模型相同的逻辑推理能力和准确性，同时保持其显著的速度优势。

4. 计算资源优化

扩散模型仅在最后一步将输出映射到词表，显著减少了计算开销。

技术路线对比：扩散与自回归的范式之争

维度	扩散语言模型	自回归 Transformer
生成流程	并行：整句初始化为噪声，迭代去噪	串行：逐个标记顺序生成
延迟	约 12 步迭代，与序列长度基本无关	与序列长度呈线性增长
可控性	基于梯度优化，更易实现精确控制	主要依赖 RLHF 和提示工程
成熟度	处于实验阶段，尚需验证	技术成熟，已广泛应用