微信扫码
添加专属顾问
我要投稿
谷歌发布首个原生多模态向量模型Gemini Embedding 2,实现文字、图片、视频、音频和文档的统一向量空间映射,大幅提升多模态任务处理能力。 核心内容: 1. Gemini Embedding 2的核心突破与五大模态支持 2. 套娃表示学习技术带来的灵活输出维度调整 3. 模型在多模态任务中的性能表现与开发生态支持
谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。
与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程,直接提升了检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。
基于Gemini的多模态理解能力,新模型在各项输入标准上给出了明确的性能指标:
除了单模态处理,该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。
在底层技术上,Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习(MRL)技术。该技术通过动态缩小维度来实现信息的嵌套存储。
这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出,官方推荐使用3072、1536或768这三个维度。
在性能表现上,Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准,为开发者处理多样化的嵌入需求提供了直接支持。
目前,嵌入技术不仅是众多谷歌产品体验的底层驱动力,在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。
开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)
调用逻辑示例:使用客户端直接调用 gemini-embedding-2-preview 模型,在 contents 列表中依次传入文本字符串,以及转换为字节流格式的图像和音频文件,即可直接输出包含多模态信息的向量结果。
在生态兼容性方面,除了官方的交互式Colab笔记本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流开发框架和向量数据库。
--end--
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-11
本地部署OCR,可能是AI进单位的第一道门
2026-06-08
正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-05-25
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
2026-05-19
从画稿到代码,AI Agent 正在吃掉产品设计的中间环节
2026-05-16
PDF解析折腾半年,最后靠这套方案搞定了
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-22
2026-04-01
2026-04-02
2026-03-18
2026-03-29
2026-03-15
2026-04-21
2026-04-27
2026-04-09
2026-03-31
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30