微信扫码
添加专属顾问
我要投稿
Google突破性发布Gemini Embedding 2,首次实现文本、图片、视频、音频和PDF五模态统一向量空间,彻底改变多模态数据处理方式。 核心内容: 1. 五种模态数据首次统一到一个向量空间的重大突破 2. 音频直接处理无需转录的创新工作流程 3. 在多项基准测试中全面领先的卓越性能表现
Google 发布了一个新模型:Gemini Embedding 2。
这是业界第一个原生支持五种模态的 Embedding 模型,能把文本、图片、视频、音频和 PDF 文档全部映射到同一个向量空间里。
一个向量空间,五种数据类型。
这个分量,做过 RAG 或语义搜索的,应该有所体会。
如果你不太了解 Embedding 是什么,可以这样理解:
Embedding 就是把各种信息翻译成一串数字。
一段文字、一张图片、一段音频,经过 Embedding 模型处理后,都会变成一个固定长度的数字列表(向量)。两个向量越接近,说明它们代表的内容越相似。
这是搜索引擎、推荐系统、RAG(检索增强生成)背后最核心的基础设施之一。
但以前有个大问题:文本有文本的 Embedding 模型,图片有图片的,音频有音频的。它们各自生成的向量,住在不同的空间里,互相听不懂。
想搜索「和这段会议录音相关的文档」?对不起,音频和文本的向量不在一个维度,比不了。
Gemini Embedding 2 做的事情,就是把这些「方言」统一成了「普通话」。
Gemini Embedding 2(模型 ID:gemini-embedding-2-preview)支持的五种输入:
文本:最多 8,192 tokens,支持 100+ 种语言
图片:每次请求最多 6 张,PNG / JPEG 格式
视频:最长 128 秒,MP4 / MOV 格式
音频:最长 80 秒,MP3 / WAV 格式,不需要先转文字
PDF 文档:最多 6 页,直接读取
而且,这些模态可以混合输入。一张图配一段文字描述,模型会生成一个融合了两者语义的向量。
音频不需要转录这一点值得单独拿出来说。 过去做音频搜索,标准流程是先 Whisper 转文字,再对文字做 Embedding。现在直接把 MP3 扔进去就行,少了一整个环节。
先看硬数据。
在 MTEB(Massive Text Embedding Benchmark)多语言排行榜上,Gemini Embedding 系列的得分是 68.32,比第二名高出 5.09 分。
在英文 MTEB v2 上,得分 73.30,排名第一。
在代码 Embedding 上,得分 74.66,同样排名第一。
Gemini Embedding 2 还支持 Matryoshka Representation Learning(MRL),默认输出 3,072 维向量,但可以灵活缩小到 1,536、768,甚至 128 维。
不同维度下 MTEB 的表现:
值得注意的是,从 3,072 降到 768,得分只掉了不到 0.5。换句话说,向量体积缩小了 75%,质量几乎没变。
这对存储和计算成本的影响是巨大的。
API 调用不再复(Goo)杂(gle)。Python 示例:
from google import genaifrom google.genai import typesclient = genai.Client()# 文本 Embeddingresult = client.models.embed_content(model="gemini-embedding-2-preview",contents="什么是向量数据库?")# 图片 Embeddingwith open("diagram.png", "rb") as f:image_bytes = f.read()result = client.models.embed_content(model="gemini-embedding-2-preview",contents=[types.Part.from_bytes(data=image_bytes,mime_type="image/png",),])# 混合输入:图片 + 文字生成一个融合向量result = client.models.embed_content(model="gemini-embedding-2-preview",contents=[types.Content(parts=[types.Part(text="一张架构图"),types.Part.from_bytes(data=image_bytes,mime_type="image/png",)])])
JavaScript 版本同样简洁:
import { GoogleGenAI } from "@google/genai";import * as fs from "node:fs";const ai = new GoogleGenAI({});const imgBase64 = fs.readFileSync("diagram.png", {encoding: "base64"});const response = await ai.models.embedContent({model: "gemini-embedding-2-preview",contents: [{inlineData: {mimeType: "image/png",data: imgBase64,},}],});
模型还支持 8 种任务类型优化,可以根据具体场景告诉模型你要干什么:
result = client.models.embed_content( model="gemini-embedding-2-preview", contents=texts, config=types.EmbedContentConfig( task_type="RETRIEVAL_DOCUMENT", output_dimensionality=768 ))
几个最直接的使用场景:
多模态 RAG
以前做 RAG,文档里的图表、流程图基本就扔掉了,只索引文本。现在图片和文本在同一个向量空间,可以一起检索。用户问「系统架构是什么样的」,既能找到文字描述,也能直接找到那张架构图。
跨模态搜索
用一段文字描述去搜索匹配的视频片段。或者反过来,用一张产品图去搜索相关的技术文档。这在以前需要维护多套管道,现在一套搞定。
Google 还做了一个在线 Demo:FindMeMedia,可以用图片、语音或文字搜索跨模态的内容。
音频知识库
会议录音、播客、客服电话,以前要先转录成文字才能做检索。现在直接对音频做 Embedding,省掉了转录这一步,还保留了语气、语调等文字丢失的信息。
法律文档发现
Google 提到,早期合作伙伴已经在用 Gemini Embedding 做法律领域的文档发现(discovery),在数百万条记录中精准定位关键证据,包括图片和视频证据。
Embedding 赛道从来不缺竞争者。来看看 Gemini Embedding 2 的几个主要对手。
OpenAI text-embedding-3-large
OpenAI 的当家 Embedding 模型,3,072 维,最多 8,191 tokens,MTEB 英文得分约 64.6。但它只支持文本。 图片方面,OpenAI (对外)还在用 2021 年发布的 CLIP,512 维,和现在的多模态 Embedding 差了一个时代。
换句话说,OpenAI 在多模态 Embedding 上目前是缺席的。
Cohere Embed v4
Cohere 是 Embedding 赛道的老牌玩家。Embed v4 支持文本和图片,1,536 维,也用了 Matryoshka 技术,支持 100+ 种语言。它在处理复杂文档方面表现优秀,能理解表格、图表、手写笔记。
但和 Gemini Embedding 2 比,Cohere Embed v4 不支持视频和音频,覆盖的模态少了两种。
Voyage AI voyage-multimodal-3
Voyage AI 在文本 Embedding 上一直有口碑(Anthropic 官方推荐的 Embedding 供应商),voyage-3.5-lite 是性价比极高的选择。多模态方面,voyage-multimodal-3 支持文本和图片。
同样,不支持音频和视频。
Jina Embeddings v4
Jina AI 去年发布的 v4 是开源阵营中最能打的多模态 Embedding 模型。38 亿参数,基于 Qwen2.5-VL 构建,支持文本、图片和 PDF,2,048 维,29 种语言。
它的杀手锏有两个:一是开源可自部署,这在数据隐私敏感的场景下是刚需;二是在视觉文档检索(ViDoRe)上拿到了 90.17 的高分,处理表格、图表、截图这类「图文混排」内容非常强。
不过 MTEB 英文得分 55.97,和 Gemini 的 73.30 有明显差距。同样不支持视频和音频。
综合对比:
Gemini Embedding 2 是目前唯一一个覆盖五种模态的商用 Embedding 模型。
而 Jina v4 是唯一开源的多模态选手。
各家各有所长。OpenAI 的文本 Embedding 生态最成熟,社区最大;Cohere 在企业级文档理解上有独到之处;Jina 能自部署,数据不出内网;Voyage AI 性价比高。
选型时,不能只看模态数量,还要看具体场景和约束条件了。
文本 Embedding:$0.20 / 百万 tokens。
Batch API 打五折:$0.10 / 百万 tokens。
图片、音频、视频按 Gemini API 标准的媒体 token 费率计算。
作为参考,OpenAI text-embedding-3-large 是 $0.13 / 百万 tokens,Cohere Embed v4 是 $0.12 / 百万 tokens。Gemini Embedding 2 价格略高,但它覆盖的模态也多得多。
而且 Google AI Studio 有免费额度可以试用。
Gemini Embedding 2 已经和主流的向量数据库、RAG 框架完成了集成:
向量数据库:Weaviate、Qdrant、ChromaDB、Pinecone,以及 Google 自家的 BigQuery、AlloyDB、Cloud SQL
RAG 框架:LangChain、LlamaIndex、Haystack
云平台:Gemini API 和 Vertex AI 均可调用
Qdrant 还专门发了一篇博客介绍如何利用 MRL 做「两阶段检索」:先用 768 维做快速初筛,再用 3,072 维做精排。同一个模型,同一次生成,两种用法。
Embedding 空间不兼容。 如果你之前用的是 gemini-embedding-001(纯文本模型),升级到 gemini-embedding-2-preview 需要把所有数据重新 Embedding。两个模型生成的向量不在同一个空间里,直接混用会得到乱七八糟的结果。
低维度向量需要手动归一化。 3,072 维的输出是自动归一化的,但如果你缩小到 768 或 1,536 维,需要自己做 L2 归一化。
import numpy as npembedding = np.array(result.embeddings[0].values)normalized = embedding / np.linalg.norm(embedding)
目前还是 Preview 状态。 模型 ID 带着 preview 后缀,说明 API 可能还会有调整。生产环境接入需要做好兼容性预案。
Embedding 模型通常不像 GPT、Claude、Gemini 这些生成式模型那样上头条。
但它其实是 AI 基础设施中最底层、最关键的一块砖。
生成式模型是「嘴」,负责说话。Embedding 模型是「记忆」,负责理解和检索。RAG 之所以能工作,就是因为 Embedding 帮模型「想起来」了相关的上下文。
过去这块砖是按模态分开烧的,文本一块,图片一块,音频一块。
Gemini Embedding 2 做的事情,是把这些碎砖烧成了一整块。
对 Agent 系统来说,这个意义可能更大。Agent 在工作过程中会接触到各种模态的信息:看到截图、听到语音指令、读取 PDF 报告。如果这些信息存在不同的向量空间里,Agent 的「记忆」就是割裂的。统一的 Embedding 空间,意味着 Agent 终于有了完整的、跨模态的记忆。
当然,这只是第一步。Preview 阶段的模型,在各个模态上的质量是否真的够用,还需要实际场景验证。
可以说:
多模态 Embedding 的统一,是 AI 基础设施的下一个关键升级。
而 Google,自然想要抢个先手。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-12
Gemini Embedding 2把多模态信息整合同一向量空间了,还需要多向量列吗?
2026-03-11
Gemini Embedding 2:首个原生五模态 embedding 模型
2026-03-11
谷歌首个原生多模态向量模型发布:Agent 可以用文字搜图片、用图片搜视频了...
2026-03-05
零帧起手 Codex × Figma 双向工作流实操
2026-02-27
NanoBanana 2.0 来了, 对比前一代和即梦 5.0 lite,它依旧强的离谱
2026-02-25
AI真人数字人语音对话性能优化实践总结
2026-02-13
“思考”更深,生成更准|Seedream 5.0 Lite 发布
2026-02-12
Seedance 2.0上线火山方舟体验中心,API即将开放
2025-12-15
2026-01-10
2025-12-17
2026-01-05
2025-12-14
2026-02-12
2026-01-27
2025-12-17
2026-01-16
2026-02-12
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30