我要投稿

借助 Gemma 4，将业界领先的 Agent Skills 引入端侧

发布日期：2026-04-20 18:47:06 浏览次数： 1886

作者：谷歌开发者

微信搜一搜，关注“谷歌开发者”

前不久，Google DeepMind 推出了 Gemma 4，这是一系列业界领先的开放模型，重塑了端侧 AI 的可能性。Gemma 4 已通过 Apache 2.0 许可发布，为开发者提供了强大的端侧 AI 开发工具包。借助 Gemma 4，您将不再局限于简单的聊天机器人，而是可以构建直接在本地设备上运行的智能体和自主 AI 应用场景。Gemma 4 支持多步规划、自主行动、离线代码生成，甚至音视频处理，且无需专门的微调。同时，该模型原生支持 140 多种语言，旨在服务全球开发者与用户。

△ Gemma 4 具备卓越的视觉处理能力，并原生支持 140 多种语言

我们很高兴地宣布，Gemma 4 强大的端侧能力现已正式开放体验！您可以通过全新的 AICore 开发者预览版访问 Android 内置的 Gemma 4 模型，或借助 Google AI Edge 在移动端、桌面端和边缘设备上构建具有智能体能力的应用内体验。在本篇文章中，我们将向您展示如何通过 Google AI Edge Gallery 和 LiteRT-LM 快速上手 Google AI Edge。

AICore 开发者预览版
https://developers.google.com/ml-kit/genai/aicore-dev-preview
Google AI Edge
https://ai.google.dev/edge
Google AI Edge Gallery
https://github.com/google-ai-edge/gallery
LiteRT-LM
https://ai.google.dev/edge/litert-lm/overview

在 Google AI Edge Gallery 中探索 Gemma 4 的 Agent Skills

Google AI Edge Gallery 已在 iOS 和 Android 上线，让您可以构建并测试完全在端侧运行的 AI 体验。我们非常高兴地宣布推出 "Agent Skills"，这是首批完全在端侧运行多步自主智能体工作流的应用之一。在 Gemma 4 的驱动下，Agent Skills 可以:

扩充知识库: Gemma 4 可以通过调用各种 "Skills"，访问其初始训练数据之外的信息，从而实现智能体增强型体验。例如，您可以构建一个查询维基百科的技能，让智能体能够查询并解答各类百科常识。

△ 检索维基百科或其他知识库

生成丰富的交互式内容: 将段落或视频转化为用于学习的精简摘要或学习闪卡，或将数据转化为交互式的可视化视图或图表。例如，您可以创建一个 Skill，根据用户的语音输入，自动总结并展示每日睡眠时长和情绪趋势。

△ 生成图标、学习闪卡及其他可视化视图

拓展 Gemma 4 的核心能力: 将 Gemma 4 与其他模型 (如文本转语音、图像生成或音乐合成模型) 进行集成。例如，您可以利用 Skills，为照片配上与氛围完美契合的音乐。

△ 与其他模型集成，以合成音乐和理解图像

打造全面的端到端体验: 用户无需在多个应用之间切换，只需通过与 Gemma 4 对话，即可管理复杂的工作流并构建自己的应用。为了直观展示这一能力，我们构建了一个可以描述并播放动物叫声的可运行应用。

△ 构建多步工作流和端到端体验

iOS
https://apps.apple.com/us/app/google-ai-edge-gallery/id6749645337
Android
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery&hl=en_US

想要亲身体验 Gemma 4 E2B 和 E4B 模型的实际表现，请立即探索 Google AI Edge Gallery 应用。在应用内，借助我们提供的指南，您可以轻松地开始实验并创建您的专属 Skills。我们迫不及待地想看到您构建的作品，欢迎在 GitHub Discussion 中分享您的 Skills!

Google AI Edge Gallery 应用
https://github.com/google-ai-edge/gallery
我们提供的指南
https://github.com/google-ai-edge/gallery/tree/main/skills
Discussion
https://github.com/google-ai-edge/gallery/discussions/categories/skills

借助 LiteRT-LM 实现 Gemma 4 的跨设备部署

对于希望在应用内或更广泛的设备上部署 Gemma 4 的开发者，LiteRT-LM 提供了卓越的性能，能够覆盖各类硬件生态。LiteRT-LM 在 LiteRT 的基础上增加了生成式 AI 专用库，而 LiteRT 已凭借其高性能库 XNNPack 和 ML Drift 深受数百万 Android 和端侧开发者的信赖。LiteRT-LM 构建于此技术栈之上，并通过以下新特性增强了模型性能:

极小的内存占用: 得益于 LiteRT 对 2-bit 和 4-bit 权重的支持，以及内存映射 (mmap) 的逐层嵌入技术，在某些设备上运行 Gemma 4 E2B 的内存占用仅需不到 1.5 GB。
约束解码: 每次都能获得结构化、可预测的输出，确保您的 AI 驱动型应用和工具调用脚本在生产环境中保持稳定。
动态上下文: 能够灵活地在 CPU 和 GPU 上处理单一模型并支持动态上下文长度，让您可以充分利用 Gemma 4 的 128K 上下文窗口。

LiteRT-LM
https://ai.google.dev/edge/litert-lm/overview
LiteRT
https://ai.google.dev/edge/litert

为了支持智能体用例所需的超长上下文，LiteRT-LM 利用前沿的 GPU 优化技术，在不到 3 秒的时间内即可处理跨越 2 个不同 Skills 的 4,000 个输入 token。

LiteRT-LM 还将较小规格的 Gemma 4 模型带到了物联网和边缘设备，并在多种平台上展现出引人注目的性能。其中包括 Raspberry Pi 5，在 CPU 上运行时，其预填充 (prefill) 速度达到 133 token/秒，解码 (decode) 速度为 7.6 token/秒；而 Qualcomm Dragonwing IQ8 上的 NPU 加速则将性能提升至更令人惊叹的 3,700 预填充 token/秒和 31 解码 token/秒。

准备好开始了吗？请查阅 LiteRT-LM 文档以获取完整指南和特定设备的性能指标。您还可以查看 Gemma 4 E2B 和 Gemma 4 E4B 的独立 Model Card。

LiteRT-LM 文档
https://ai.google.dev/edge/litert-lm/overview
Gemma 4 E2B
https://huggingface.co/litert-community/gemma-4-E2B-it-litert-lm
Gemma 4 E4B
https://huggingface.co/litert-community/gemma-4-E4B-it-litert-lm

全平台运行

Gemma 4 现已发布，并实现了前所未有的广泛平台支持:

移动端: 支持 Android 和 iOS 的 CPU/GPU 运行。开发者还可以通过 Android AICore 在系统层面访问并部署 Android 内置且经过优化的 Gemma 4 模型。
桌面端与 Web 端: 在 Windows、Linux 和 macOS (通过 Metal) 上拥有流畅性能，并支持由 WebGPU 驱动的原生浏览器执行。
物联网与机器人技术: 我们将 Gemma 4 带到了 Raspberry Pi 5，以及赋能 Arduino VENTUNO Q 的 Qualcomm Dragonwing IQ8 处理器等端侧。

我们还推出了全新的 Python 包和 CLI 工具，让您在控制台中体验 Gemma 变得前所未有的简单，并为物联网设备上基于 Gemma 的 Python 流水线提供支持。litert-lm CLI 已在 Linux、macOS 和 Raspberry Pi 上可用，开发者无需编写任何代码即可尝试最新的 Gemma 4 模型能力。该 CLI 现已支持工具调用，为 Google AI Edge Gallery 中的 Agent Skills 提供支持。LiteRT-LM 的 Python bindings 提供了从 Python 深度定制设备端大模型流水线的灵活性。借助我们的指南，在终端中开始使用 LiteRT-LM 非常简单。