微信扫码
添加专属顾问
我要投稿
谷歌发布首个原生多模态向量模型Gemini Embedding 2,实现文字、图片、视频、音频和文档的统一向量空间映射,大幅提升多模态任务处理能力。 核心内容: 1. Gemini Embedding 2的核心突破与五大模态支持 2. 套娃表示学习技术带来的灵活输出维度调整 3. 模型在多模态任务中的性能表现与开发生态支持
谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。
与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程,直接提升了检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。
基于Gemini的多模态理解能力,新模型在各项输入标准上给出了明确的性能指标:
除了单模态处理,该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。
在底层技术上,Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习(MRL)技术。该技术通过动态缩小维度来实现信息的嵌套存储。
这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出,官方推荐使用3072、1536或768这三个维度。
在性能表现上,Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准,为开发者处理多样化的嵌入需求提供了直接支持。
目前,嵌入技术不仅是众多谷歌产品体验的底层驱动力,在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。
开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)
调用逻辑示例:使用客户端直接调用 gemini-embedding-2-preview 模型,在 contents 列表中依次传入文本字符串,以及转换为字节流格式的图像和音频文件,即可直接输出包含多模态信息的向量结果。
在生态兼容性方面,除了官方的交互式Colab笔记本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流开发框架和向量数据库。
--end--
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-12
Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
2026-03-11
Gemini Embedding 2:首个原生五模态 embedding 模型
2026-03-11
Google 发布首个全模态 Embedding 2 模型,文本图片音视频 PDF 统一到一个向量空间
2026-03-05
零帧起手 Codex × Figma 双向工作流实操
2026-02-27
NanoBanana 2.0 来了, 对比前一代和即梦 5.0 lite,它依旧强的离谱
2026-02-25
AI真人数字人语音对话性能优化实践总结
2026-02-13
“思考”更深,生成更准|Seedream 5.0 Lite 发布
2026-02-12
Seedance 2.0上线火山方舟体验中心,API即将开放
2025-12-15
2026-01-10
2025-12-17
2026-01-05
2025-12-14
2026-02-12
2026-01-27
2026-01-16
2025-12-17
2026-02-12
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30