我要投稿

DiffusionGemma: 文本生成速度提升 4 倍

发布日期：2026-06-22 20:44:28 浏览次数： 1577

作者：谷歌开发者

微信搜一搜，关注“谷歌开发者”

作者 / 研究科学家 Brendan O'Donoghue 和 Sebastian Flennerhag

我们已正式推出 DiffusionGemma，一个对文本扩散 (Text Diffusion) 技术进行了前沿探索的实验性开放模型，能够实现极其快速的文本生成。该模型基于 Apache 2.0 许可发布，是一款拥有 260 亿参数 (26B) 的混合专家模型 (Mixture of Experts, MoE)。DiffusionGemma 打破了传统自回归大语言模型 (LLM) 逐个 Token 顺序处理的限制，它能够同时生成整个文本块，从而在 GPU 上实现高达 4 倍的文本生成速度提升。

DiffusionGemma 建立在 Gemma 4 系列业界领先的 "单位参数智能" 基础之上，并融合了前沿的 Gemini 扩散技术研究。模型中集成了一个全新的 Diffusion Head，旨在将文本生成速度提升到极致。尽管自回归 Gemma 4 模型在高质量生产级输出方面依然是行业标准，但 DiffusionGemma 是专为探索对速度要求极高的交互式本地工作流的开发者与研究人员量身打造的 —— 例如行内编辑、快速迭代，以及生成非线性文本结构等场景。

Gemini 扩散技术研究
https://deepmind.google/models/gemini-diffusion/

为开发者解锁新价值

开发者在构建实时交互式 AI 应用时，常常会遇到本地推理延迟的瓶颈。DiffusionGemma 直接针对这些挑战进行了优化，不过也在一些关键维度上做出了权衡:

极速推理体验: 通过将解码瓶颈从内存带宽 (Memory Bandwidth) 转移到计算上，DiffusionGemma 在专用 GPU 上的 Token 输出速度最高可提升 4 倍。(在单张 NVIDIA H100 上可达到 1,000+ Token/秒，在 NVIDIA GeForce RTX 5090 上可达到 700+ Token/秒)。
友好的硬件门槛: 作为一个总参数量为 26B 的混合专家 (MoE) 模型，DiffusionGemma 在推理过程中仅激活其中的 3.8B 参数。在经过量化后，它可以轻松适配高端消费级 GPU 的 18GB 显存限制。
双向注意力机制 (Bidirectional Attention): 在每次前向传播中会并行生成 256 个 Token，这允许每个 Token 能够关注所有其他 Token。这在诸如行内编辑、代码填充 (Infilling)、氨基酸序列分析或数学图谱等非线性领域中具有显著优势。
智能自纠错机制: 该模型通过迭代方式对自身输出进行改进，使其能够一次性评估整个文本块，从而实时纠正错误。
实验性状态与生产部署建议: 由于 DiffusionGemma 优先考虑了生成速度和并行文本块生成，其整体输出质量的确会低于标准的 Gemma 4。对于要求最高质量的应用，我们强烈建议您部署标准的 Gemma 4。

您可以通过微调来提升 DiffusionGemma 在特定任务上的性能。在下面的例子中，Unsloth 对 DiffusionGemma 进行了微调，使其能够玩数独 —— 自回归模型在此类任务中表现不佳，因为每个 Token 都依赖于后续的 Token，而 DiffusionGemma 的双向注意力机制则轻松解决了这一问题。

△ 微调后的 DiffusionGemma 正在解决数独问题

Unsloth
https://unsloth.ai/docs/models/diffusiongemma

为什么将扩散模型用于文本？

虽然 AI 研究界对基于扩散的文本生成已经探索了多年，但将其应用到大模型仍是一项挑战。DiffusionGemma 通过改变模型使用硬件的方式，改变了这一现状。

与传统模型的对比

大多数的大语言模型就像一台 "打字机"，从左到右、一次只生成一个 Token。这种机制在云端是非常高效的，因为服务器可以通过将数千个用户的请求进行 "批处理 (Batching)"，从而共享硬件负载。但是，当大模型在本地为单个用户运行时，这种 "逐字" 的生成过程会导致您的专用 GPU 或 TPU 利用率严重不足 —— 它的大部分时间其实都只是在简单地等待下一个 "按键"。

DiffusionGemma 扭转了这种低效局面。它不再按顺序逐词进行预测，而是同时生成包含 256 个 Token 的完整段落。通过单次向计算机处理器分配更大规模的任务，DiffusionGemma 能够充分发挥硬件性能。它将模型推理过程从单一的、顺序操作的 "打字机" 模式，升级为能同时印制整块文本的 "大型印刷机" 模式。

△ Hugging Face 制作的 DiffusionGemma 文本生成 3D SVG 演示 (逐步生成)

这也意味着 DiffusionGemma 的加速优势主要是针对本地运行以及低并发推理而设计的。而在高 QPS (每秒查询率) 的云端服务中，自回归模型已经能够高效跑满算力，此时 DiffusionGemma 的并行解码带来的收益递减，甚至可能导致更高的服务成本。在单个加速器、中低批处理量 (Batch Size) 的情况下，其吞吐量优势最为显著。

文本扩散是如何工作的？

正如 AI 图像生成器从一团视觉噪点开始，通过迭代将其打磨成清晰的图片一样，DiffusionGemma 将相同的逻辑应用到了文本生成上:

画布 (The canvas): 模型首先创建一块充满随机占位符 Token 的 "画布"。
迭代精炼 (Iterative refinement): 模型进行多次处理，锁住正确 Token，并将它们作为上下文线索去继续精炼其余部分。
最终打磨 (Final polish): 文本最终汇总为高质量的输出。

从一团视觉噪点开始，通过迭代将其打磨
https://research.google/blog/on-device-diffusion-plugins-for-conditioned-text-to-image-generation/

由于模型在生成时可以处理整个段落，所以它解锁了模型行为的新范式，例如完美地闭合复杂的 Markdown 格式，或者近乎实时地生成和渲染代码。

立即开始体验

获取模型权重: DiffusionGemma 26B (MoE) 实验性权重已在 Hugging Face 上开放获取，基于宽松的 Apache 2.0 许可协议发布。
集成与学习: 您可以在我们的 DiffusionGemma 开发者指南中了解更多信息，或者深入探索 DiffusionGemma 视觉指南了解其底层核心运行机制。
使用您偏好的开发工具：使用 MLX、vLLM (获 Red Hat 集成支持) 及 Hugging Face Transformers 高效部署模型。为了协助您快速开展实验，我们发布了一份基于 Hackable Diffusion 的微调教程 —— 这是一个专为可组合性设计的模块化 JAX 工具箱。您还可以尝试使用 Unsloth 和 NVIDIA NeMo 进行微调。此外，针对 llama.cpp 的官方支持也即将推出。
体验优化后的性能: 我们与 NVIDIA 合作，针对其全线硬件架构进行了优化，既确保了与消费级配置的兼容性 (为 GeForce RTX 5090 和 4090 GPU 提供量化支持)，又实现了在企业级系统 (基于先进 NVFP4 内核的 Hopper 和 Blackwell 架构) 上的高性能表现 —— 涵盖了适用于本地桌面部署的 NVIDIA DGX Spark 和 DGX Station，以及面向 AI 专业人士的 RTX PRO 解决方案。对 NVFP4 (4 位浮点数) 的原生支持显著提升了计算吞吐量，使模型能够在保持近乎无损精度的同时，以更快的速度运行。
选择适合您的方式: 在您的桌面端专用 GPU 上运行，或者通过 Gemini 企业级智能体平台的 Model Garden 或 NVIDIA NIM 在云端运行。