微信扫码
添加专属顾问
我要投稿
Google DeepMind的开源LLM新突破,Gemma 3引领多模态AI新潮流。 核心内容: 1. Gemma 3的多模态能力,视觉理解功能的新突破 2. 支持超长上下文长度,优化架构提升处理效率 3. 增强的多语言性能,更广泛的语言支持和应用场景
今天和大家讲一下Google DeepMind刚刚发布的Gemma 3,这是他们开源语言模型系列的最新迭代版本。这次升级带来了许多显著的改进,包括多模态能力、更长的上下文长度以及增强的多语言性能。Gemma 3的模型规模从10亿到270亿参数不等,专为在消费级硬件上高效部署而设计,同时还能提供行业领先的表现。更重要的是,它在LMArena排行榜的人类偏好评估中,超越了Llama3-405B、DeepSeek-V3和o3-mini等知名模型。
话不多说,我们一起来看看Gemma 3到底有哪些亮点吧!
我们都知道现在AI模型的能力越来越“全能”了,而Gemma 3最大的升级之一就是加入了视觉理解功能。与之前的版本不同,Gemma 3可以通过一个自定义的SigLIP视觉编码器来处理图像。这个编码器会将图像转换成固定大小的向量表示,然后语言模型将其作为“软标记”进行解释。
当然,如果你经常用LLM做纯文本任务的话,这里视觉部分可能暂时用不上了,就暂不介绍了。
Gemma 3在上下文长度方面也有了质的飞跃,最高支持128,000个tokens(1B模型除外,支持32K tokens)。要知道,处理这么长的上下文可不是件容易的事,需要一系列架构上的优化:
这些优化让Gemma 3在处理超长文档时更加得心应手。
为了进一步提升性能,Gemma 3引入了一系列新特性:
如果你对写代码或模型优化感兴趣的话,这些技术细节绝对值得深入研究!
Gemma 3在多语言处理方面也有了显著提升,这得益于重新调整的训练数据组合和采用的Gemini 2.0分词器:
对于那些希望在全球化场景中应用LLM的人来说,Gemma 3无疑是一个强有力的选择。
Gemma 3的指令微调(IT)模型经过了一个高级后训练流水线,结合了知识蒸馏、强化学习(RLHF)和数据集过滤等技术。
Gemma 3在多个AI基准测试中都取得了令人印象深刻的成绩:
MMLU-Pro | 67.5% | ||
LiveCodeBench | 29.7% | ||
Bird-SQL (dev) | 54.4% | ||
FACTS Grounding | 74.9% |
Gemma3-27B-IT在全球LMSYS Chatbot Arena中排名第9,获得了1338的Elo评分,超过了以下模型:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-18
开源Graph Builder:将文档转化为知识图谱
2025-09-18
Parlant:为企业级应用而生的开源LLM智能体框架,打造“AI员工监工”,让LLM可解释、可审计
2025-09-17
苹果 macOS 本地部署最新 GPT-5 CodeX,网友集体抛弃 Claude Code
2025-09-17
腾讯开源了个知识库系统,在飞牛NAS上部署玩玩!
2025-09-17
Qwen3-Next 首测!Qwen3.5的预览版?但为什么我的测试一塌糊涂?
2025-09-17
Microsoft 推出用于更长对话式 AI 音频的 VibeVoice 且开源
2025-09-16
[开源]Docling:AI时代的全能文档处理引擎
2025-09-15
如何使用 SGLang 部署 LongCat-Flash 模型
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-07-31
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13
2025-08-11