微信扫码
添加专属顾问
我要投稿
Gemma 4 QAT模型大幅优化,让大语言模型能流畅运行在你的手机和消费级显卡上,体验本地AI的便捷与高效。核心内容:1. QAT技术如何减少模型压缩的精度损失2. Gemma 4 E2B模型内存占用降至1GB的突破3. 专为移动端设计的定制量化方案与性能优势
作者 / Google DeepMind 产品管理总监 Olivier Lacombe 和技术专家 Omar Sanseviero
自两个月前 Gemma 4 发布以来,我们一直在持续努力扩展其能力。首先,我们引入了多 Token 预测 (Multi-Token Prediction, MTP) 来加速推理;并在近期发布了 Gemma 4 12B 模型,成功填补了 E4B 与 26B MoE 模型之间的空白。
多 Token 预测 (Multi-Token Prediction, MTP)
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
现在,我们正式发布了经过量化感知训练 (QAT) 优化的全新检查点 (checkpoints),从而进一步提升 Gemma 4 的效率,让您能够在日常端侧设备和消费级 GPU 上本地运行模型。
通过在训练过程中模拟量化,QAT 能够最大程度地减少模型压缩时的精度和质量损失。本次发布不仅包含了针对主流 Q4_0 量化格式的 QAT 检查点,还包含一种专为移动端使用场景量身定制的全新量化格式。通过这种移动端格式,我们成功将 Gemma 4 E2B 的内存占用降至仅 1GB。这两项技术相辅相成,在大幅降低内存需求的同时,依然完好地保留了 Gemma 4 的强大能力与卓越品质。
量化 (Quantization) 是推动模型能够在消费级硬件上运行的关键技术,它不仅能够降低显存和内存占用,还能加快解码速度。然而,标准的训练后量化 (Post-Training Quantization, PTQ) 通常会导致性能退化。QAT 并非在训练后对模型进行量化,而是将量化过程直接融入到训练过程中。尽管 PTQ 在保持模型质量方面已然十分有效,但我们的 QAT 成果相比标准 PTQ 基线展现出了更高的整体质量。
我们已将这一 QAT 方案应用到了广受欢迎的 Q4_0 格式中,以最大化所有模型的性能表现。而针对端侧模型 (E2B 和 E4B),我们则通过一套专为移动端优化的量化方案,重塑了量化技术的处理方式。
以下是加载各款模型所需的显存 (VRAM)/内存近似需求列表:
标准的压缩格式往往很难在移动端处理器上实现高效运行。为了确保 Gemma 4 在移动设备上流畅运行,我们专门为端侧硬件设计了一套定制的移动端量化方案 (Mobile-Quantization Schema):
静态激活 (Static activations): 通常,模型在运行时需要耗费算力去实时计算如何缩放数据。我们选择在训练阶段预先计算好这些设置,大大减轻了移动端芯片的计算负担并加快响应速度。
逐通道量化 (Channel-wise quantization): 我们构建了压缩数据的结构,使其能够契合移动端加速器的设计。这使手机能够原生执行计算,无需缓慢的折中变通方案。
定向 2-bit 量化 (Targeted 2-bit quantization): 我们对模型中负责生成 Token 的特定部分进行了大幅压缩 (降至 2-bit),同时将最核心的推理层保持在更高的精度。这在不让模型变 "笨" 的同时节省了存储空间。
Embedding 与 KV 缓存优化 (Embedding and KV cache optimization): 我们对模型的词汇表和短期记忆进行了重点压缩。这大幅降低了活动内存的占用,让您在进行长对话时无需担心空间不足。
由于在许多应用场景中并不需要音频和视觉编码器,您还可以通过 "按需部署模态" 来进一步优化内存占用。例如,不含逐层嵌入 (Per-Layer Embeddings) 的纯文本版 Gemma 4 E2B 模型所需的内存不到 1GB。
为了让这些模型能够轻松融入您首选的工作流,我们已与整个生态系统中的主流开发者工具达成合作,即日起无缝支持 Gemma 4 QAT 检查点:
下载模型权重: 您现在就可以直接在 Hugging Face 上获取 Q4_0 和移动端模型权重。我们已针对您的工作流定制了相应的格式: GGUF 格式已准备就绪,可直接用于 llama.cpp,并为 vLLM 提供了压缩张量。对于其他需求,我们分享了未量化的检查点,您可以将其转换并量化为支持 Q4_0 的格式。
集成与学习: 欢迎查阅我们的官方文档,了解如何以最佳方式部署这些 QAT 检查点。
在您的桌面端尝试: 借助 llama.cpp、Ollama 和 LM Studio 等用户友好型界面,即可轻松地在您的桌面端本地下载、管理和运行 Gemma 4 QAT 模型。
在设备端部署: 使用 Google 轻量级的 LiteRT-LM 运行时进行优化的端侧部署,或者利用 Transformers.js 直接在浏览器 Web 端运行模型。
使用您喜爱的开发工具:
使用 SGLang 和 vLLM 高效托管更大规模的模型。
使用 MLX 针对 Apple 芯片 (Apple Silicon) 进行优化。
使用 MTP QAT 检查点,在对模型进行量化的同时,依然保留 MTP 带来的加速效果。
使用 Hugging Face Transformers 和 Unsloth 直接微调权重。
Q4_0
https://huggingface.co/collections/google/gemma-4-qat-q4-0
移动端
https://huggingface.co/collections/google/gemma-4-qat-mobile
官方文档
https://ai.google.dev/gemma/docs/core#qat
llama.cpp
https://huggingface.co/collections/google/gemma-4-qat-q4-0
Ollama
https://ollama.com/library/gemma4
LM Studio
https://lmstudio.ai/models/gemma-4
LiteRT-LM
https://huggingface.co/collections/litert-community/gemma-family
Transformers.js
https://huggingface.co/collections/onnx-community/gemma-4-onnx
SGLang
https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4
vLLM
https://huggingface.co/collections/google/gemma-4-qat-q4-0
MLX
https://huggingface.co/collections/mlx-community/gemma-4-qat
MTP
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
Unsloth
https://unsloth.ai/docs/models/gemma-4/qat
我们由衷期待看到您使用本地运行的 Gemma 4 构建精彩!也欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-18
开源中医 Skill:把倪海厦课程变成可检索知识库
2026-06-17
GLM-5.2 技术解读:智谱百万上下文的新一代旗舰模型
2026-06-16
26.1%的AI编程技能有漏洞:NVIDIA开源 SkillSpector 能扫出什么?
2026-06-12
当 AI Coding Agent 成为基础设施:我们为什么要开源 LoongSuite Pilot
2026-06-09
CPU 跑得比 Whisper GPU还快的开源语音识别,本地部署
2026-06-09
别再问我什么是爱马仕!
2026-06-09
Open Design:开源界的 Claude Design 替代品,61.7K Star,21+ Agent 都能跑,本地第一
2026-06-08
我开源了 PPT-Library:让历史 PPT 变成 AI 可复用资产
2026-03-30
2026-04-09
2026-04-03
2026-03-23
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-31
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01