微信扫码
添加专属顾问
我要投稿
谷歌DeepMind最新文本生成技术,挑战传统语言模型,速度提升5倍!核心内容:1. Gemini Diffusion:将扩散技术应用于文本生成的革命性尝试2. 独特的生成机制:先初始化为噪声,再逐步净化形成完整文本3. 官方基准测试:性能与Gemini 2.0 Flash-Lite相当,速度提升5倍
谷歌推出革命性文本扩散技术!
你可能没注意的是,Google DeepMind 在 I/O 2025 上发布了一个重磅实验性模型——Gemini Diffusion!
一个将扩散(diffusion)技术用于文本生成的全新尝试!
这或许是一个意义重大的技术突破。
扩散模型在图像生成领域已经证明了其强大的能力(如 Stable Diffusion、DALL-E),但将其应用于纯文字生成,这算得上是对传统语言模型范式的重大挑战。
传统的自回归语言模型(如 GPT-4、Claude)生成文本的方式是从左到右顺序生成每个标记,类似于人类的写作过程。
也就是模型每多生成一个token,都得先得到其左边所有的token,然后再将所有当前的token 全部送进神经网络,再通过预测得到下一个token.
而 Gemini Diffusion 采用了完全不同的方法:它不是逐个标记生成,而是先将整段文本初始化为「噪声」,然后通过多次迭代,逐步将这些噪声「净化」,最终形成有意义的完整文本。
这种方法带来了显著的性能提升:官方测试数据显示,Gemini Diffusion 每秒能生成约 1500 个token!
比现有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍!
据 Google DeepMind 的技术介绍,Gemini Diffusion 具备三大关键优势:
超高响应速度:显著快于谷歌现有的最快模型
更高文本连贯性:能够一次性生成整块标记,而非逐个生成
迭代自我修正:在生成过程中进行错误纠正,确保输出的一致性
特别是对于编程和数学这类需要高度逻辑一致性和多次验证的任务,扩散模型展现出了明显的优势。
@amirkdev 提出了一个有趣的问题:
「对于编程来说,它会不会与自己争论哪种括号风格最好?」
这是一个幽默却也颇有洞察的问题——由于并行生成的特性,扩散模型能够在多个迭代步骤中全局优化整段代码,包括保持一致的编码风格。
值得注意的是,尽管 Gemini Diffusion 采用了全新的生成机制,但在标准基准测试上与 Gemini 2.0 Flash-Lite 的表现相当接近:
注意:两者性能相当,但 Gemini Diffusion 的速度优势高达 5 倍!
官方提供了详细的基准测试结果:
数据显示 Gemini Diffusion 在大多数指标上与 Gemini 2.0 Flash-Lite 表现相当,且在 AIME 2025(数学)测试上略有优势。
网友@karthik_dulam 也好奇提问:
「谁能解释为什么扩散语言模型能够快一个数量级?」
那么,为什么扩散模型在文本生成领域能实现数量级的速度提升呢?
据分析,这涉及四个核心技术「加速机制」:
自回归模型:必须按顺序生成标记,后一个标记依赖前一个的完成。
扩散模型:整句话同时处理,所有位置并行进行噪声去除。
@itsArmanj 给出了推测性的分析:
「帮我理解:如果你让 Transformer 计算二乘三,它会推理出 23=,然后下一个标记是 6。扩散模型如何在形成 23 之前就得出 6?」
事实上,扩散模型不依赖顺序推理,而是在多轮迭代中优化整个序列。
它先生成包含噪声的「候选答案」,然后通过多步去噪过程,确保整个表达式和答案在数学上的一致性。
Gemini Diffusion 仅需约12步迭代就能生成高质量文本,而自回归模型处理一个包含1000个标记的段落则需要1000次顺序处理。
扩散模型采用双向注意力而非单向注意力机制,不需要维护 KV-cache,更适合充分利用 GPU/TPU 的并行计算架构。
@LeeLeepenkman 观察到:
「我们又回到了扩散器和 DIT 块的路线。之前大家都在尝试自回归图像生成,因为 4oimage 采用了这种方式,但当你深入思考或实际尝试时会发现这种方式相当缓慢。通过大规模扩展扩散模型,我们或许能达到这种逻辑和文本精度,就像实现逼真的光照一样。」
通过规模扩展,扩散模型将有可能达到与自回归模型相同的逻辑推理能力和准确性,同时保持其显著的速度优势。
扩散模型仅在最后一步将输出映射到词表,显著减少了计算开销。
扩散语言模型 | 自回归 Transformer | |
---|---|---|
生成流程 | ||
延迟 | ||
可控性 | ||
成熟度 |
@TendiesOfWisdom 提出了一个富有启发性的类比:
「科幻电影《降临》中的外星人文字 = 新的扩散语言模型?他们的圆形文字一次性传递完整概念;这些模型并行迭代达成连贯性,抛弃了逐步生成标记的方式。非线性思维与 AI 的下一波浪潮相遇。」
这个比喻倒是有些意思,科幻电影《降临》中外星人的圆形文字能够一次性表达完整概念,扩散语言模型也采用「非线性」方式同步生成整段内容。
值得关注的是,Google 正将扩散技术统一应用于文本(Gemini Diffusion)、图像(Imagen 4)和视频(Veo 3)三大领域,这显然是在构建一个基于扩散技术的全模态 AI 生态系统。
Google 尚未发布 Gemini Diffusion 的详细技术论文,仅有一篇简单的产品介绍链接:
https://deepmind.google/models/gemini-diffusion/
不过,此前也有相关的技术路线研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。
目前,Gemini Diffusion 仅向有限的合作伙伴开放测试,但 Google 已开放了候补名单供研究者和开发者注册。
我已经排上队了,链接在此:
https://docs.google.com/forms/u/0/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/formResponse
这次的Gemini Diffusion,展示的不仅是速度的提升,更可能是生成范式的根本性变革。
这,或将会是个有趣的实验对象。
而随着扩散模型在文本生成领域应用的开启,我们可能正在见证 AI 生成技术的又一次革命性转变。
?
?
?
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的知识星球中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)
欢迎你的加入!也欢迎加群和2000+群友交流
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-22
LLM 协作革命:Group Think 如何重塑推理边界 (万字)
2025-05-22
AI服务架构的范式跃迁:从“模型即服务”到“Agent即服务”
2025-05-22
微软CPO: AI时代新产品的成功要素
2025-05-22
直播回顾 | 不再“纸上谈兵”,大模型能力如何转化为实际业务价值
2025-05-22
OpenAI放大招!核心API支持MCP,一夜改变智能体开发
2025-05-22
一文搞懂大模型的分词器(Tokenizer)
2025-05-22
用AI重做一切?花两千给Google I/O 更新们去去水分
2025-05-21
OpenAI最怕的对手来了!Google用「思考预算」重新定义AI生产力
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-18
2025-05-18
2025-05-17
2025-05-13
2025-05-13
2025-05-12
2025-05-11
2025-05-09