微信扫码
添加专属顾问
我要投稿
Gemma 4 带来端侧 AI 革命,让智能体能力直接运行在本地设备上,无需云端依赖。核心内容: 1. Gemma 4 的核心功能与多模态处理能力 2. 通过 AICore 和 AI Edge 快速开发端侧应用 3. Agent Skills 实现的多步自主工作流案例
作者 / Google AI Edge 团队
前不久,Google DeepMind 推出了 Gemma 4,这是一系列业界领先的开放模型,重塑了端侧 AI 的可能性。Gemma 4 已通过 Apache 2.0 许可发布,为开发者提供了强大的端侧 AI 开发工具包。借助 Gemma 4,您将不再局限于简单的聊天机器人,而是可以构建直接在本地设备上运行的智能体和自主 AI 应用场景。Gemma 4 支持多步规划、自主行动、离线代码生成,甚至音视频处理,且无需专门的微调。同时,该模型原生支持 140 多种语言,旨在服务全球开发者与用户。
△ Gemma 4 具备卓越的视觉处理能力,并原生支持 140 多种语言
我们很高兴地宣布,Gemma 4 强大的端侧能力现已正式开放体验!您可以通过全新的 AICore 开发者预览版访问 Android 内置的 Gemma 4 模型,或借助 Google AI Edge 在移动端、桌面端和边缘设备上构建具有智能体能力的应用内体验。在本篇文章中,我们将向您展示如何通过 Google AI Edge Gallery 和 LiteRT-LM 快速上手 Google AI Edge。
AICore 开发者预览版
https://developers.google.com/ml-kit/genai/aicore-dev-preview
Google AI Edge
https://ai.google.dev/edge
Google AI Edge Gallery
https://github.com/google-ai-edge/gallery
LiteRT-LM
https://ai.google.dev/edge/litert-lm/overview
Google AI Edge Gallery 已在 iOS 和 Android 上线,让您可以构建并测试完全在端侧运行的 AI 体验。我们非常高兴地宣布推出 "Agent Skills",这是首批完全在端侧运行多步自主智能体工作流的应用之一。在 Gemma 4 的驱动下,Agent Skills 可以:
扩充知识库: Gemma 4 可以通过调用各种 "Skills",访问其初始训练数据之外的信息,从而实现智能体增强型体验。例如,您可以构建一个查询维基百科的技能,让智能体能够查询并解答各类百科常识。
△ 检索维基百科或其他知识库
生成丰富的交互式内容: 将段落或视频转化为用于学习的精简摘要或学习闪卡,或将数据转化为交互式的可视化视图或图表。例如,您可以创建一个 Skill,根据用户的语音输入,自动总结并展示每日睡眠时长和情绪趋势。
△ 生成图标、学习闪卡及其他可视化视图
拓展 Gemma 4 的核心能力: 将 Gemma 4 与其他模型 (如文本转语音、图像生成或音乐合成模型) 进行集成。例如,您可以利用 Skills,为照片配上与氛围完美契合的音乐。
△ 与其他模型集成,以合成音乐和理解图像
打造全面的端到端体验: 用户无需在多个应用之间切换,只需通过与 Gemma 4 对话,即可管理复杂的工作流并构建自己的应用。为了直观展示这一能力,我们构建了一个可以描述并播放动物叫声的可运行应用。
△ 构建多步工作流和端到端体验
iOS
https://apps.apple.com/us/app/google-ai-edge-gallery/id6749645337
Android
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&hl=en_US
想要亲身体验 Gemma 4 E2B 和 E4B 模型的实际表现,请立即探索 Google AI Edge Gallery 应用。在应用内,借助我们提供的指南,您可以轻松地开始实验并创建您的专属 Skills。我们迫不及待地想看到您构建的作品,欢迎在 GitHub Discussion 中分享您的 Skills!
Google AI Edge Gallery 应用
https://github.com/google-ai-edge/gallery
我们提供的指南
https://github.com/google-ai-edge/gallery/tree/main/skills
Discussion
https://github.com/google-ai-edge/gallery/discussions/categories/skills
对于希望在应用内或更广泛的设备上部署 Gemma 4 的开发者,LiteRT-LM 提供了卓越的性能,能够覆盖各类硬件生态。LiteRT-LM 在 LiteRT 的基础上增加了生成式 AI 专用库,而 LiteRT 已凭借其高性能库 XNNPack 和 ML Drift 深受数百万 Android 和端侧开发者的信赖。LiteRT-LM 构建于此技术栈之上,并通过以下新特性增强了模型性能:
极小的内存占用: 得益于 LiteRT 对 2-bit 和 4-bit 权重的支持,以及内存映射 (mmap) 的逐层嵌入技术,在某些设备上运行 Gemma 4 E2B 的内存占用仅需不到 1.5 GB。
约束解码: 每次都能获得结构化、可预测的输出,确保您的 AI 驱动型应用和工具调用脚本在生产环境中保持稳定。
动态上下文: 能够灵活地在 CPU 和 GPU 上处理单一模型并支持动态上下文长度,让您可以充分利用 Gemma 4 的 128K 上下文窗口。
LiteRT-LM
https://ai.google.dev/edge/litert-lm/overview
LiteRT
https://ai.google.dev/edge/litert
为了支持智能体用例所需的超长上下文,LiteRT-LM 利用前沿的 GPU 优化技术,在不到 3 秒的时间内即可处理跨越 2 个不同 Skills 的 4,000 个输入 token。
LiteRT-LM 还将较小规格的 Gemma 4 模型带到了物联网和边缘设备,并在多种平台上展现出引人注目的性能。其中包括 Raspberry Pi 5,在 CPU 上运行时,其预填充 (prefill) 速度达到 133 token/秒,解码 (decode) 速度为 7.6 token/秒;而 Qualcomm Dragonwing IQ8 上的 NPU 加速则将性能提升至更令人惊叹的 3,700 预填充 token/秒和 31 解码 token/秒。
准备好开始了吗?请查阅 LiteRT-LM 文档以获取完整指南和特定设备的性能指标。您还可以查看 Gemma 4 E2B 和 Gemma 4 E4B 的独立 Model Card。
LiteRT-LM 文档
https://ai.google.dev/edge/litert-lm/overview
Gemma 4 E2B
https://huggingface.co/litert-community/gemma-4-E2B-it-litert-lm
Gemma 4 E4B
https://huggingface.co/litert-community/gemma-4-E4B-it-litert-lm
Gemma 4 现已发布,并实现了前所未有的广泛平台支持:
移动端: 支持 Android 和 iOS 的 CPU/GPU 运行。开发者还可以通过 Android AICore 在系统层面访问并部署 Android 内置且经过优化的 Gemma 4 模型。
桌面端与 Web 端: 在 Windows、Linux 和 macOS (通过 Metal) 上拥有流畅性能,并支持由 WebGPU 驱动的原生浏览器执行。
物联网与机器人技术: 我们将 Gemma 4 带到了 Raspberry Pi 5,以及赋能 Arduino VENTUNO Q 的 Qualcomm Dragonwing IQ8 处理器等端侧。
我们还推出了全新的 Python 包和 CLI 工具,让您在控制台中体验 Gemma 变得前所未有的简单,并为物联网设备上基于 Gemma 的 Python 流水线提供支持。litert-lm CLI 已在 Linux、macOS 和 Raspberry Pi 上可用,开发者无需编写任何代码即可尝试最新的 Gemma 4 模型能力。该 CLI 现已支持工具调用,为 Google AI Edge Gallery 中的 Agent Skills 提供支持。LiteRT-LM 的 Python bindings 提供了从 Python 深度定制设备端大模型流水线的灵活性。借助我们的指南,在终端中开始使用 LiteRT-LM 非常简单。
指南
http://ai.google.dev/edge/litert-lm/cli
端侧智能体体验的时代已经到来,我们希望您已准备好在端侧开启构建之旅。无论您在何种设备上进行开发,请通过 Google AI Edge Gallery 中的 Agent Skills 示例以及 LiteRT-LM 入门指南开启您的旅程。我们迫不及待地想看到您的作品!
Agent Skills 示例
https://github.com/google-ai-edge/gallery/tree/main/skills
LiteRT-LM 入门指南
https://ai.google.dev/edge/litert-lm/overview
欢迎您关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-18
Ollama 本地部署 Gemma 4 完全指南
2026-04-18
Google Gemini CLI 完整使用指南
2026-04-18
ollama v0.21.0 最新更新:Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析
2026-04-18
Hermes Agent v0.9.0 全面解析:AI 助手的终极进化
2026-04-17
Qwen3.6-35B-A3B模型,正式开源!
2026-04-15
Hermes 凭什么两个月接棒 OpenClaw?
2026-04-15
HiClaw 上线 Worker 模板市场,提供稳定可共享的 Agent 生产力
2026-04-15
Agent新王诞生!Hermes 7周追上龙虾,中国用户可微信直连
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-26
2026-01-23
2026-03-30
2026-04-03
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28