Featured image of post Google 刚刚把多模态检索,从“拼装工程”变成了“基础能力”

Google 刚刚把多模态检索,从“拼装工程”变成了“基础能力”

过去几年,多模态检索一直有一种很别扭的感觉:大家都知道它重要,也都知道它有价值,但真要落地,往往就会迅速滑向一

过去几年,多模态检索一直有一种很别扭的感觉:大家都知道它重要,也都知道它有价值,但真要落地,往往就会迅速滑向一场“拼装工程”。文本一套模型,图片一套模型,音频最好先转写,视频最好先抽帧,PDF 还要单独解析。最后系统看起来像是“能搜”,可背后其实是五六条处理链硬拼在一起,复杂、昂贵,而且很难优雅。

Google 新发布的 Gemini Embedding 2,真正让人眼前一亮的,不是它又把 embedding 做强了一点,而是它第一次把文本、图片、音频、视频、PDF拉进了同一个统一向量空间里。官方把它定义为 Google 首个原生多模态 embedding 模型,目前已经通过 Gemini APIVertex AI 进入 Public Preview。

这件事听上去像模型更新,实际上更像一次架构层的洗牌。因为从这一刻起,多模态检索终于不再只是“大厂能做、小团队很难做优雅”的高级能力,而开始像一项真正的基础设施:可以被调用,可以被组合,也可以被更低成本地接进你的搜索、RAG、知识库和内容系统里。

它到底强在哪,不只是“支持多模态”

很多人看到这里,第一反应可能是:

“支持文本、图片、音频、视频、PDF,这不就是多模态吗?”

还真不止。

Gemini Embedding 2 的关键不只是“什么都能输进去”,而是所有模态出来以后能落在同一个 embedding space 里。这意味着什么?意味着你不再一定要为每种媒介维护完全独立的语义体系。文本可以搜图片,图片可以召回 PDF,音频可以关联视频片段,跨模态检索终于不是一层额外的“补丁能力”,而成了模型本身的默认能力。

这会直接改变系统设计思路。

以前你更像是在设计“五条平行管线”。

现在你更像是在设计“一个统一召回底座”。

注意,我这里说的是“更像”,不是说所有复杂度从此消失。长视频仍然要切片,复杂知识库仍然要做 metadata 设计,高要求场景依然常常需要 rerank。

最值钱的地方,是它终于不再要求你先做“翻译官”

过去处理非文本内容时,行业里一个非常常见的默认动作是“先降级成文本”。

●音频?先 Whisper。

●视频?先抽帧,最好再加字幕。

●PDF?先 OCR,再抽正文。

这类方案当然能工作,但本质上是在让系统把所有模态都挤进“文本入口”里。Gemini Embedding 2 做的,是把入口重新打开。它可以原生摄取音频,不需要中间文本转写;视频支持约 2 分钟级别的原生输入;PDF 也可以直接嵌入。

这意味着搜索开始更接近人真正理解世界的方式。

●你问“哪节课讲过这个图”,系统不一定非要先把整门课转成文本再去关键词匹配;

●你上传一段声音,也不一定非得先变成文字才能参与检索;

●你搜一个商品,也不一定要把图和文分开索引,最后再人工拼装成“结果页”。

一个特别容易被低估的能力:它可以表示“实体”,不只是“素材”

Gemini Embedding 2 还有一个很值得说的亮点:它支持混合输入。

如果你在一个 content entry 里传入多个 parts,比如“文字 + 图片”,模型会为这组内容生成一个聚合后的 embedding;如果你在 contents 数组里放多个独立条目,它则会返回多个独立向量。官方文档甚至直接建议:对于像社交媒体帖子这种包含多种媒体内容的复杂对象,可以把多个 embedding 聚合,形成一个 post-level representation

这件事非常关键。

因为它把 embedding 的对象,从“原子素材”升级成了“业务实体”。

一块手表,不只是商品图,也不只是商品描述;

一条社交帖子,不只是文字,也不只是配图;

一堂课程,不只是讲义 PDF,也不只是视频和录音。

过去这些东西往往是拆开建索引、拆开召回、最后在上层硬拼。

现在你可以在索引层就把它们当成一个“对象”来表示。

这对于做内容平台、商品搜索、企业知识库、课程检索,影响都非常大。因为从这里开始,RAG 的检索单元不再只能是 text chunk,它可以是一个帖子、一个商品、一段课堂内容,甚至一个带图文说明的复杂知识实体。

3072 维不是重点,重点是你终于可以按成本来调“语义密度”

做系统的人都知道,维度本身并不是越大越好。更大的维度意味着更高的存储成本、更高的计算开销、更长的检索延迟。Gemini Embedding 2 默认输出 3072 维,但支持用 output_dimensionality 调整维度,官方推荐的常见选择是 768、1536、3072,并说明它支持从 128 到 3072 的灵活输出。这个能力背后用的是 MRL(Matryoshka Representation Learning)

简单说就是:你可以根据场景,在“效果”和“成本”之间做更细粒度的平衡。

●如果你是大规模通用检索,1536 维可能就已经很香;

●如果你追求极致成本和吞吐,768 维会很有吸引力;

●如果你做的是高价值高精度场景,3072 维会更稳。

免费吗?多少钱?

Gemini Embedding 2 现在有两条主路径,想快速试、想低门槛上手,用 Gemini Developer API;想走企业治理、云权限、生产环境,走 Vertex AI。

第一条是 Gemini Developer API。

这一条更轻,适合开发者快速试。官方价格页明确写了:gemini-embedding-2-preview 当前有 Free Tier,文本、图片、音频、视频输入在免费层里都是 Free of charge。免费层数据 Used to improve our products: Yes;如果切到付费层,这一项会变成 No。付费价格方面:

●标准模式下文本是 $0.20 / 1M tokens

●图片约 $0.00012 / 张

●音频约 $0.00016 / 秒

●视频约 $0.00079 / 帧;

如果用 Batch API,价格大约是标准价的 50%。

第二条是 Vertex AI。

这一条更偏企业与云上生产环境。你需要 Google Cloud 项目、启用 billing、开启 Vertex AI API,并配置认证;而且 AI Studio 的 API key 不能直接用于 Vertex AI。模型页还写明:Gemini Embedding 2 当前支持的是 Standard PayGo,不支持 Provisioned Throughput、Flex PayGo、Priority PayGo 和 Batch Prediction,当前页面列出的区域是 us-central1。Vertex AI 价格页对它的专属条目写的是:

●文本 $0.2 / 1M tokens

●图片 $0.00012 / image

●视频 $0.00079 / frame

●音频 $0.00016 / sec

●输出不收费。

两个很容易踩的坑

第一个坑,是不要把旧向量直接拿来和新模型混用。

gemini-embedding-001 和 gemini-embedding-2-preview 的 embedding spaces 不兼容。也就是说,如果你准备升级到 Gemini Embedding 2,旧数据不能直接拿来比较,你需要重新做一遍 re-embedding。这对已经有存量索引库的团队来说,是非常现实的迁移成本。

第二个坑,是不要把“视频支持时长”写得过于绝对。

目前官方资料里有三种写法:

●Google 博客写的是支持最多 120 秒视频;

●Gemini API 文档写的是视频上限 128 秒;

●Vertex AI 模型页则更细,写成带音频视频上限 80 秒,不带音频视频上限 120 秒。

所以总结来说它当前具备 2 分钟级别的视频原生 embedding 能力,更长的视频仍建议切片后索引。

它不会消灭所有复杂度,但它确实改写了“默认架构”

Gemini Embedding 2没有神奇到让多模态检索从此没有工程问题。

它不会自动帮你解决 metadata、chunking、权限隔离、召回融合、在线延迟、索引更新这些老问题。

但它确实把过去那种“多模态一定要多套模型、多套索引、多阶段拼装”的默认范式,往前推了一大步。

更重要的是,这一步不是停留在“论文层面”的。Google 已经给出了官方接入路径,也已经列出 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 和 Vertex AI Vector Search 等生态集成方式。也就是说,这不是一个“看上去很厉害但暂时用不起来”的能力,它已经开始变成开发者今天就能碰、今天就能试、今天就能接进系统里的东西。

所以,Gemini Embedding 2 真正改变的,可能不是“embedding 这个模型又进步了多少”,而是:

Google 终于把多模态检索,从一项需要大量拼装和妥协的工程活,推进成了一种更统一、更自然、更接近基础设施的能力。

最后

如果文本、图片、音频、视频、PDF 真的开始共享一个语义空间,接下来最值得重新思考的问题,也许就不再是:

“我还能接多少模型?”

而是:

在我的系统里,什么才算一个真正值得被检索的对象?

是一段文字,

是一页 PDF,

是一张图,

是一条帖子,

还是一个由图文、声音、视频共同组成的“实体”?

Gemini Embedding 2 给出的,不只是一个新模型。

它更像是在提醒所有做 AI 应用的人:

下一代检索系统要统一的,从来不只是接口,而是我们理解世界的入口。

位旅人路过 次翻阅 初次见面