2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

发布日期:2026-06-08 18:56:00 浏览次数: 1531
作者:谷歌开发者

微信搜一搜,关注“谷歌开发者”

推荐语

无需编码器,Gemma 4 12B将先进多模态AI直接装进你的笔记本电脑,解锁本地智能体新体验。

核心内容:
1. 全新统一架构:免编码器设计,直接处理视觉与音频输入
2. 强大性能与轻量化:性能接近26B模型,仅需16GB内存即可本地运行
3. 开源生态与应用:Apache 2.0协议发布,已支持丰富开发者应用场景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

作者 / 产品管理总监 Olivier Lacombe 与 Google DeepMind 产品经理 Gus Martins


我们正式推出最新款模型 - Gemma 4 12B,旨在将智能体多模态智能 (agentic multimodal intelligence) 直接引入笔记本电脑。Gemma 4 12B 填补了适用于边缘设备的 E4B 模型与更先进的 26B 混合专家模型 (MoE) 之间的空白,在缩减内存占用的同时,集成了强大的功能。它也是我们首款原生支持音频输入的端侧中型模型。


得益于开发者社区的支持,Gemma 4 系列模型的下载量现已突破 1.5 亿次。从用于身体辅助的可穿戴机械臂,到企业级的 AI 安全方案,开发者们利用 Gemma 构建了丰富多彩的应用。我们非常期待看到大家用这款最新加入的模型构建新的精彩作品。


  • 可穿戴机械臂

    https://www.youtube.com/watch?v=OhaIA3bYwmg

  • 企业级的 AI 安全方案

    https://deepmind.google/models/gemma/gemmaverse/hirundo/


Gemma 4 12B 的独特亮点一览: 

  • 全新的统一架构: 无需多模态编码器。视觉和音频输入可以直接汇入大语言模型 (LLM) 主干网络。

  • 卓越的推理能力: 在基准测试中的表现接近我们的 26B 模型,解锁了强大的多步骤推理和智能体工作流。

  • 适配笔记本电脑: 模型体量足够轻量,仅需 16GB 的显存 (VRAM) 或统一内存 (Unified Memory) 即可在本地运行。

  • 开放且易于获取: 采用 Apache 2.0 许可协议发布,并在整个开发者生态系统中获得广泛支持。

  • 支持草稿模型: Gemma 4 12B 配备了多 Token 预测 (MTP) 草稿模型,能够显著降低推理延迟。


这些特性协同作用,在不牺牲运行速度或推理能力的前提下,将先进的多模态能力带到了日常硬件上。接下来,让我们深入了解 Gemma 4 12B 是如何实现这一目标的。



在本地运行最先进的智能体


在标准基准测试中,Gemma 4 12B 的性能非常接近我们体量更大的 26B MoE 模型,而其所需的总内存占用不到后者的一半。它足够轻量,可以在配备 16GB 内存的消费级笔记本电脑上本地运行,在您的设备上直接解锁强大的多模态和智能体体验。



体验独特高效的统一架构


Gemma 4 12B 之所以能脱颖而出,在于其处理视觉和音频输入时的极简化设计。传统的多模态模型通常依赖于独立的编码器来转换图像和音频,然后再将这些表征 (representations) 传递给语言模型。由于这些分离的编码器会增加延迟并提高内存占用,我们采用了一种免编码器 (encoder-free) 架构来训练 Gemma 4 12B,从而直接整合音频和视觉输入。


以下是 Gemma 4 12B 原生处理多模态输入的方式: 

  • 视觉: 我们用一个轻量级的嵌入模块取代了 Gemma 4 的视觉编码器。该模块仅由单个矩阵乘法、位置嵌入和归一化 (normalizations) 组成。这使得大语言模型主干网络能够直接接管视觉处理。

  • 音频: 我们对音频处理的简化则更为彻底,通过完全移除音频编码器,直接将原始音频信号投影到与文本 Token 相同的维度空间中。


如果您想获取更详尽的技术架构解析,请查阅同步推出的 Gemma 4 12B 开发者指南

https://developers.googleblog.com/gemma-4-12b-the-developer-guide/


直观感受原生音频处理实际表现: 观看 Gemma 4 12B 如何利用 Google AI Edge Eloquent 应用,在完全离线的状态下对语音输入进行转录、格式化和翻译。



立即开启体验


  • 亲自上手尝试: 只需点击几下,即可在 LM StudioOllamaGoogle AI Edge Gallery AppGoogle AI Edge Eloquent app 和 LiteRT-LM CLI 中轻松开始实验。

  • 下载模型权重: 直接从 Hugging Face 和 Kaggle 下载预训练和指令微调 (instruction-tuned) 后的检查点 (checkpoint)。

  • 集成与学习: 查阅开发者文档快速入门 Notebook

  • 使用您喜爱的开发工具: 使用 Hugging Face Transformersllama.cppMLXSGLang 和 vLLM 构建本地推理流水线,或使用 Unsloth 进行高效微调。

  • 利用 Gemma Skills 解锁智能体开发: 为了支持智能体结合最新的 Gemma 技术成果进行构建,我们发布了官方的 Skills Repository。这是一个专门为赋能智能体使用 Gemma 模型而设计的 Skills 库。

  • 灵活部署: 使用 Google Cloud 在生产环境中快速启动推理端点。您可以通过 Gemini 企业级智能体平台的 Model GardenCloud Run 和 GKE (Google Kubernetes Engine) 选择最适合您的方式进行灵活部署。


  • LM Studio

    https://lmstudio.ai/models/gemma-4

  • Ollama

    https://ollama.com/library/gemma4

  • Google AI Edge Gallery App

    https://developers.google.com/edge/gallery

  • Google AI Edge Eloquent

    https://ai.google.dev/edge/eloquent

  • LiteRT-LM CLI

    https://ai.google.dev/edge/litert-lm/cli

  • Hugging Face

    https://huggingface.co/collections/google/gemma-4

  • Kaggle

    https://www.kaggle.com/models/google/gemma-4

  • 开发者文档

    https://ai.google.dev/gemma/docs/core

  • 快速入门 Notebook

    https://ai.google.dev/gemma/docs/capabilities/text/basic

  • Hugging Face Transformers

    https://huggingface.co/google/gemma-4-12B-it

  • llama.cpp

    https://huggingface.co/collections/ggml-org/gemma-4

  • MLX

    https://huggingface.co/collections/mlx-community/gemma-4

  • SGLang

    https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

  • vLLM

    https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html

  • Unsloth

    https://unsloth.ai/docs/models/gemma-4

  • Skills Repository

    https://github.com/google-gemma/gemma-skills

  • Gemini 企业级智能体平台的 Model Garden

    https://console.cloud.google.com/agent-platform/publishers/google/model-garden/gemma4;publisherModelVersion=gemma-4-12b-it

  • Cloud Run

    https://codelabs.developers.google.com/codelabs/cloud-run/cloud-run-gpu-rtx-pro-6000-gemma4-vllm

  • GKE (Google Kubernetes Engine) 

    https://docs.cloud.google.com/kubernetes-engine/docs/tutorials/serve-gemma-gpu-vllm


欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。





53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询