Google Developers Blog 介绍了 Gemini Embedding 2 的开发用法。这个模型已经通过 Gemini API 和 Gemini Enterprise Agent Platform 进入 GA,重点不只是“新的 embedding 模型”,而是把文本、图像、视频、音频和文档映射到同一个语义空间。
这会让检索系统的边界变宽:过去很多 RAG 流程需要先把图片、视频、音频拆成文字或元数据,再单独建索引;Gemini Embedding 2 则可以直接处理多模态输入,让代理、搜索和分类系统更容易围绕真实业务材料工作。
原文链接:Building with Gemini Embedding 2: Agentic multimodal RAG and beyond
模型能力
Gemini Embedding 2 支持 100 多种语言。单次请求可以处理:
- 最多 8,192 个文本 token
- 最多 6 张图片
- 最多 120 秒视频
- 最多 180 秒音频
- 最多 6 页 PDF
它的关键点是“统一语义空间”。开发者可以把不同模态的内容放在同一套向量表示里,用同一种检索、聚类或重排序逻辑处理。
例如,文本描述和图片可以放在同一次 embedding 请求里:
|
|
如果你希望每个输入分别得到 embedding,而不是聚合成一个向量,可以使用 Batch API。原文也提到,Agent Platform 对这类批量支持还在跟进中。
对 RAG 的意义
多模态 embedding 对代理式 RAG 很有用。一个 AI agent 可能需要同时检查代码仓库、PDF、截图、图表、音频会议记录和产品图片。如果所有资料都能进入同一个语义空间,检索链路就不必为每种材料单独设计一套入口。
Google 建议根据任务使用 task prefix,让 embedding 更贴近检索目标。例如问答、事实核查、代码检索和搜索结果,可以使用不同前缀:
|
|
这种前缀适合非对称检索:用户查询往往很短,文档内容往往很长。把 query 和 document 分别按任务格式整理,可以改善短查询到长文档之间的匹配。
原文给了两个落地反馈:
- Harvey 在法律检索基准上,Recall@20 precision 相比上一代 embedding 提升 3%。
- Supermemory 在 Recall@1 搜索准确率上提升 40%,并把它用于记忆、索引、搜索和问答管线。
这些数字不代表所有场景都会同幅度提升,但说明多模态 embedding 已经不只是演示能力,而是在真实检索产品中产生效果。
视觉搜索
Gemini Embedding 2 也适合做以图搜图、图文混合搜索和商品识别。原文提到服装租赁公司 Nuuly 用它匹配仓库中未打标签的服装照片,使 Match@20 从 60% 提升到接近 87%,总体成功识别率从 74% 提升到 90% 以上。
这类场景的关键不是生成内容,而是理解“这张图片和哪个库存、文档或商品记录最接近”。如果你的业务里有大量图片、视频片段或扫描件,多模态 embedding 会比纯文本索引更自然。
检索重排序
Embedding 还可以用于 rerank。常见做法是先用基础检索拿到一批候选结果,再计算候选结果和用户查询之间的相似度,把更相关的内容排到前面:
|
|
原文还提到一种思路:先让模型根据内部知识生成一个假设答案,再把这个假设答案做 embedding,与候选内容比较相似度,用来挑出语义更贴近的结果。这对问答型 RAG 尤其有用。
聚类、分类和异常检测
除了检索,embedding 也适合聚类、分类和异常检测。和前面的问答检索不同,这些属于对称任务,query 和 document 可以使用同一种任务前缀:
|
|
这类任务可以用于舆情分类、内容审核、相似资产归类、异常样本发现,也可以帮助 agent 对大量上下文材料先做整理,再进入后续推理。
存储和成本
Gemini Embedding 2 默认输出 3,072 维向量。它使用 Matryoshka Representation Learning,因此可以通过 output_dimensionality 把向量截断到更小维度。Google 推荐在效率优先时使用 1,536 或 768 维:
|
|
向量可以存到 Agent Platform Vector Search、Pinecone、Weaviate、Qdrant、ChromaDB 等系统里。成本方面,原文提到 Batch API 可提供更高吞吐,并达到默认 embedding 价格的 50%。
开发者该怎么用
如果你已有文本 RAG,可以先从两类增量改造开始:
- 把 PDF、截图、图片说明和文本文档放入同一个索引,测试查询召回是否更稳定。
- 给不同任务加 task prefix,例如问答、事实核查、代码检索、商品搜索,不要把所有内容都按同一种 embedding 方式处理。
如果你在做新产品,可以优先考虑这些方向:
- 企业知识库:同时检索文档、图表、演示稿截图和会议材料。
- 视觉搜索:用图片、文本或混合输入查找商品、资产、设计稿和档案。
- Agent 工具链:让 coding agent、研究 agent 或客服 agent 检索多种格式的业务材料。
- 内容治理:对文本、图片、视频片段做统一分类、聚类和异常检测。
Gemini Embedding 2 的价值在于把多模态材料变成同一套可检索资产。对开发者来说,这会减少“先转文字再检索”的中间层,也让 RAG 系统更接近真实世界的数据形态。