Gemma 4开源！整整一年，谷歌终于想明白了！！！

发布日期：2026-04-04 07:21:59 浏览次数： 2351

作者：硅基心脏

微信搜一搜，关注“硅基心脏”

就在昨天晚上，谷歌发布并开源了Gemma 4，4个参数版本，可用于本地端侧设备运行，支持多模态。

不过，端侧这一块我一直觉得这块挺尴尬。手机上能跑的模型，要么太傻，要么太慢。真正好用的，都得上云。隐私合规、离线可用、实时响应，这些需求明摆着，技术上就是差那口气。

这次，Google DeepMind发了Gemma 4。

看完之后，我觉得这次有点不一样，不是发个模型交差，而是在端侧AI这条路上，真的往前跨了一大步。

01 四颗钻石

DeepMind CEO Demis Hassabis在X上发了四颗钻石emoji。几个小时后谜底揭晓，Gemma 4一口气发了四款模型。

1.E2B：51亿总参数，推理时激活约23亿，内存占用可压到1.5GB以下。专为手机、IoT和边缘设备设计。
2.E4B：80亿总参数，推理时激活约45亿。面向移动端和树莓派、NVIDIA Jetson等边缘计算设备。
3.26B MoE：252亿总参数，推理时只激活3.8B参数。128个专家，每次激活8个加1个共享。推理速度接近4B模型，质量远超4B水平。
4.31B Dense：310亿参数全激活，未量化的bfloat16权重，一张80GB H100就能装下。

26B MoE这个数字让我愣了一下。252亿总参数的模型，推理时只用3.8B，按照过去两年的叙事逻辑，不是应该越大越好吗？参数量从几百亿卷到几千亿，推理成本从几十万美元卷到几百万美元，谷歌怎么突然反着来了？

更让我意外的是，这个模型在Arena AI开源排行榜上（截至发布时）位列第六，排在前面的，参数量是它的十几倍甚至二十倍。

官方博客的标题很直接，Byte for byte, the most capable open models，逐字节衡量，这是迄今最强的开源模型。

产品矩阵的逻辑很清晰。小模型打无处不在，大模型打前沿智能触手可及。E2B和E4B是谷歌定义的核心战略，mobile-first AI，专为数十亿Android设备及物联网终端设计；26B和31B则瞄准本地开发、IDE辅助和Agent工作流。

02 谷歌终于想明白了

Gemma 1、2、3三代，用的都是谷歌自己的许可协议。

允许商用，但附加条款不少。谷歌可以单方面修改规则。有些条款甚至被解读为，用Gemma生成的合成数据，如果用来训练其他模型，协议也跟着延伸过去。开发者们抱怨了一整年。

这次，谷歌直接换成了Apache 2.0。

这是业界最宽松、最成熟的开源协议之一。没有使用限制，没有商业门槛，没有用户量要求。开发者可以自由修改、分发、商用，谷歌也不能哪天突然说改就改了。

Hugging Face联合创始人Clément Delangue评价很直接，Gemma 4以Apache 2.0许可证发布是一个巨大的里程碑。

为什么谷歌突然转性了？我觉得是因为压力。Meta的Llama系列早就用宽松协议占据了开源生态心智；国内DeepSeek、Qwen、GLM这几家，今年春节前后密集发版，参数量从几百亿到上千亿，在推理、代码、Agent方向各有侧重。在这个格局下，如果继续在许可条款上设限，只会加速开发者向竞品迁移。

Apache 2.0是参与开源竞争的入场券，不是加分项。谷歌终于想明白了，开源不是施舍，是生存。

03 端侧部署，这次是动真格的

Gemma 4最值得关注的，是端侧布局。

E2B和E4B从底层为计算和内存效率设计，推理时只激活23亿和45亿参数，以保护设备的RAM和电池寿命。谷歌与Pixel团队、高通、联发科深度合作，针对骁龙8 Elite等旗舰移动芯片的NPU做了专项优化。

结果是，这两款模型可以在手机、树莓派、NVIDIA Jetson Orin Nano等设备上完全离线运行，延迟接近于零。

这释放了一个明确的信号，谷歌正在将端侧AI从实验品推向基础设施。

谷歌还配套发布了一个安卓应用，Google AI Edge Gallery。用户可以直接从Google Play下载，体验E2B和E4B模型，功能包括AI Chat、Ask Image、Audio Scribe、Prompt Lab，甚至还有Agent Skills的体验区域。端侧AI，第一次变得真正触手可及。