我要投稿

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

发布日期：2026-06-04 07:09:10 浏览次数： 1603

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新

RAGino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;line-height: 1.75;text-align: justify;">

刚刚，谷歌DeepMind发布了Gemma 4 12B。

一句话概括这个模型的定位：把原本需要高端服务器才能跑的多模态智能，装进你的笔记本电脑里。

它填补的是Gemma家族里一个关键空缺：比边缘端的E4B更强，比26B混合专家模型（MoE）更轻。而且在整个Gemma 4系列里，它是第一个支持原生音频输入的中等规模模型。

到底有多能打？

先说跑分。Gemma 4 12B在标准评测基准上的成绩接近26B MoE模型，但总内存占用还不到后者的一半。

硬件门槛方面：只需要16GB显存或统一内存，消费级笔记本电脑就能运行，也就是入门级的MacBook Air（M5）就能跑了

能力方面，它支持强大的多步推理和智能体工作流。多模态理解加上Agent能力，直接在本地跑，不用联网，不依赖云端。

本地体验入口有：LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent应用（可以直接看到完全离线的语音转录、格式化和翻译效果）、LiteRT-LM CLI。

我已经第一时间通过LM Studio安装了，以后就算断网，本地也有真正的多模态模型了，没有任何token焦虑，不过最好上32g内存，16g虽然可以跑，但是token速度很慢，另外中文表达默认好像是粤语表达方式，所以问问题之前要求用简体中文来回答，知识截止日期2025年1月。

最核心的技术创新：扔掉编码器

这是Gemma 4 12B最值得说的地方。

传统的多模态模型，处理图片或音频的方式是这样的：先用专门的编码器把图像、音频"翻译"成模型能懂的表示，再把这些表示传给语言模型主体。编码器越多，延迟越高，内存占用也越大。

谷歌这次直接把编码器去掉了。

视觉处理方面，他们用一个极轻量的嵌入模块替换了原来的视觉编码器，这个模块只包含一次矩阵乘法、位置嵌入和归一化操作。视觉信息就这样直接进入语言模型主干，让大模型自己去做视觉理解。

音频处理方面，走得更彻底。音频编码器被完全移除，原始音频信号直接被投影到与文本token相同的维度空间里。

这种统一、无编码器的架构，带来的直接好处是：延迟更低，内存更省。

还有一个细节：速度优化

Gemma 4 12B内置了多Token预测（MTP）草稿器，专门用来降低推理延迟。这个技术我之前的文章有介绍过，目前谷歌已经用到自家全系模型了

这在实际使用中意味着响应更快。

Apache 2.0，完全开放

许可证方面，Gemma 4 12B采用Apache 2.0协议发布，开发者可以自由使用。

预训练权重和指令微调权重都可以直接从Hugging Face和Kaggle下载。

支持的推理框架包括：Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM。微调方面支持Unsloth。

生产部署方面，支持通过谷歌云上线，可以走Gemini企业级智能体平台模型花园、Cloud Run和GKE。

配套生态同步上线

谷歌这次还一并发布了官方Gemma技能库（Skills Repository），专门为开发者用Gemma模型构建智能体工作流提供支持，里面的技能库是专门为Gemma设计的。

开发者文档和快速入门Notebook也同步上线。

开发者指南：

https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

权重：

https://huggingface.co/collections/google/gemma-4

参考：

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/

--end--

最后记得⭐️我，每天都在更新：如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者：你说的完全正确（YAR师）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-04

腾讯开源了 Agent Memory，让 AI 真正记住你。_tag2

2026-06-04

AionUi 统一接管 OpenClaw 与 Hermes Agent

2026-06-03

微软开源Intelligent Terminal：基于Windows Terminal、集成原生Agent能力

2026-06-02

让 Agent 拥有超强记忆，TencentDB Agent Memory 开源了！

2026-06-02

Qwen3-ASR：阿里开源的语音识别大模型，一行命令干掉 Whisper

2026-06-02

拥抱 AI Agent 时代：12条工程实践指南

2026-05-31

亲测有效！Codex桌面版免费接入DeepSeek V4

2026-05-31

阿里开源语音识别「核弹」：170 倍实时、吊打 Whisper，还免费

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

阿里开源龙虾组合来了：HiClaw + CoPaw，内存占用大幅降低，还能直接操作本地环境

2026-03-12

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw