Vibe Coding 过时了?谷歌开始卷Vibe Searching

AI能根据你的文字生成图片,也能生成视频。

可当我们人类想要的东西是一段画面、一种氛围、一个模糊的印象,机器就没啥办法了。

你没法在搜索框里输入“那种很孤独的感觉”然后得到一张完美的剧照,也没法对着监控系统说“帮我找打架的片段”。

文字是文字,图片是图片,视频是视频,音频是音频,它们各自封闭,互不相通。

2026年一季度,当其他大模型厂商还在卷agent、卷内容生成的时候,谷歌悄悄发布了Gemini Embedding 2模型。

它把文本、图片、视频、音频和文档,全部拉进了同一个语义空间。

这意味着你可以用一句话找到一张图,用一张图找到一段视频,用一段音频找到一份文档。

五种模态之间的壁垒被打通了,机器第一次拥有了类似人类“通感”的能力。

它不再把世界看成割裂的文件格式,而是像你一样,把一段旋律、一个画面、一句话理解为同一件事的不同表达。

有网友评论道:“人工智能不再把世界看得支离破碎,它和你一样看待它。”

01 谷歌的战略深意:不在应用层肉搏,而是去定标准

谷歌选择在这个时间点发布这个模型可以说是耐人寻味。

在OpenClaw狂热的当下,大家都在比谁的大脑更聪明,谁的手脚更灵活。

而谷歌却退后一步,去打磨一种更底层的能力——感知力。

要理解这步棋的分量,需要先看清一个事实。在Gemini Embedding 2出现之前,多模态嵌入其实不是什么新鲜玩意,甚至于可以说它有点“土”。

Nomic、Jina、CLIP 的衍生模型都做过尝试,但它们要么只覆盖两三种模态,要么精度不够,总结来说就是能用但不好用。

更关键的是,市面上绝大多数嵌入模型,本质上仍然是“文本优先”的。

想搜索一段视频?先把视频转录成文字,再对文字做嵌入。这个中间步骤不仅拖慢速度,还不可避免地损耗语义。

画面的构图、音乐的情绪、说话人的语气,这些只存在于原始模态中的微妙信号,在转录为文字的那一刻就已经不存在了。

Gemini Embedding 2的做法则完全不同。

它原生理解声波和动态画面,直接将五种模态映射到同一个3072维的语义空间里,不需要任何中间转译。

法律科技公司Everlaw在使用embedding 2模型处理诉讼发现(litigation discovery)流程时,跨数百万条记录的检索召回率提升了20%;另一家企业Sparkonomy则发现,相比此前的多管道方案,延迟降低了70%,语义相似度得分直接翻倍。

聪明的大脑固然重要,但如果这个大脑看不见、听不到、摸不着真实世界里那些纷繁复杂的多模态信息,它就像一个被关在漆黑房间里的天才,再聪明也无处施展。所以谷歌的策略是:与其在上层应用上和对手肉搏,不如直接去修路、定标准。

标准从何定起?前提在于,每一家大模型厂商的嵌入标准是完全不兼容的。

同一张照片,在谷歌的语义空间里坐标可能是 (1, 2),到了 OpenAI 的体系里就变成了 (9, 8)。谷歌自己的文档也明确指出,从上一代gemini-embedding-001升级到Embedding 2,所有已有数据都必须重新嵌入,两代模型生成的向量之间无法直接比较。

一旦企业用了谷歌的模型为积攒多年的图片、音频、视频建立了索引,想要迁移到其他平台,就意味着把全部数据重新投喂、重新计算。这种耗费巨大算力和时间的索引重建工程,会让企业在不知不觉中被深度绑定到谷歌的生态里。

谷歌深谙此道,并且在加速这种绑定。

Embedding 2发布当天就已经集成了LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB、Pinecone 等几乎所有主流AI开发框架和向量数据库,官方Colab示例代码以Apache 2.0许可证开源,文本嵌入定价仅0.20美元/百万token,批量调用再打五折。

这套动作的意图非常清晰:让开发者和企业以低门槛的方式涌入,等到数据沉淀到一定规模,迁移成本就会像滚雪球一样越滚越大。

“我们开发和利用人工智能潜力的方法根植于我们的创始使命——组织世界信息,使其普遍可访问且实用。”这是2023年谷歌官网发布的《我们为什么关注人工智能以及目的是什么》中的一句话。

从帮助科学家探索蛋白质折叠的 AlphaFold,到针对数学和物理顶级难题推出的Gemini DeepThink模式,再到这次的跨模态检索,谷歌确实在一步步兑现这个承诺。

02 一个里程碑式的技术突破

Gemini Embedding 2支持超过100种语言,拥有8192个token的上下文窗口(大约对应4000到5000个中文字符),每次请求最多可以处理6张图片、120秒的视频以及6页的PDF。

在基准测试中,它的多语言检索、代码检索和图文检索得分全面超越了Amazon Nova 2和Voyage 3.5。

但真正让这件事具有里程碑意义的,不只是跑分数字,而是它所瞄准的那片无人深海。

根据IDC 2023年的报告,视频、音频、图片等非结构化数据占到了全球数据总量的92.9%,即便到2028年,这个比例预计也只会降到82.3%。

换句话说,人类产生的绝大多数信息——会议录音、产品视频、设计图稿、监控画面由于其非结构化特征,长久沉寂在茫茫的互联网世界中无法被按需打捞,就像一个个封闭的黑盒。

以前要对这些黑盒数据进行语义比对、建立索引,主流所采用的是“双编码器”架构,OpenAI的CLIP就是如此。

一个视觉编码器处理图片,一个文本编码器处理文字,两个编码器各自独立运行,最后再通过对比学习把它们的输出对齐到同一个空间里。

谷歌Cloud团队在技术博客中写到:因为两个编码器是分开的,它们只在最后阶段才见面,所以错过了在网络中间层形成深层跨模态连接的机会。

就好比两个翻译各自把一本书翻成了不同的语言,然后试图在目录层面对齐。它们的字面意思或许能对上,但原文中那些微妙的语境、情绪,在这个过程中已经丢失了。

到了Gemini Embedding 2这里,当模型处理一张配有文字说明的产品图时,它不是分别理解图片和文字再拼接结果,而是像人类一样,把视觉信息和语言信息当作一个整体来感知。

这也造就了检索的一种新玩法:交错输入(interleaved input)。

开发者可以在一次API调用中同时传入一段文字、三张图片和一段音频,模型会返回一个捕捉了所有跨模态关系的统一向量。

说得再直观一点。比如一家电商平台想做“以图搜物”功能,但用户的需求比较复杂:他拍了一张朋友穿的外套照片,同时输入文本:“和这个款式类似但颜色要偏暖”。

在传统方案下,系统只能要么理解图片、要么理解文字,总是顾此失彼,两条线索无法合流。

而交错输入允许模型生成一个同时编码了“外套版型”和“暖色调”的统一向量,再用这个向量去商品库里做检索。

两种模态的信息在向量层面真正交汇成了一个完整的意图。

03 Vibe Searching时代来了

如果说用自然语言编程标志着我们进入了Vibe Coding时代,那么拿着一段描述、一张图、一段音频就能找到高度匹配的多模态内容,标志着我们正在进入Vibe Searching时代。

当新embedding模型接入谷歌Workspace以后,Gemini可以准确分析那些混合了图片和表格的金融文档;在Gmail里,你记不清楚邮件的关键词,你只需要给个模糊信息就能找到那封邮件。接入YouTube,用户即便忘了视频标题和博主名字,只要描述视频的内容和风格,就能精准找到对应的视频。

模型不再是对关键词做匹配,而可以理解审美、风格和氛围。

搜索的本质也对应发生变化:从前要精确匹配关键词,现在只需模糊表达意图。

你不再需要知道你要找的东西叫什么,你只需要告诉它,这个东西给你的感觉是什么。

这个转变对内容行业的冲击尤其值得关注。如今的内容推荐极度依赖人工打标签,没被标注的好内容往往石沉大海。

模型理解不了一个作品的好,因为它只能孤立地看画面、听音乐、读文案。

现在的AI无法像人类一样对美感有意会。

而Gemini Embedding 2却能从综合视角去“意会”一个作品,仿佛拥有了人类审美。

它可以听出这首歌的旋律气质和某类用户的听歌偏好之间的语义距离,然后把它推到对的人面前。好内容不再需要会自我营销,它只需要是好内容。

企业的知识管理也是同理。

比如说一家运营了十年的制造企业,它的网盘里躺着上万份技术手册、产品图纸、质检报告和会议录音。

某天一个新入职的工程师遇到了一个良品率异常的问题,他隐约记得老师傅提过类似的案例,但不知道记录在哪里。

可能某个PDF里的一张图表中提到过类似的事情,也可能是某次会议录音里的一段讨论。以前他只能挨个问人、翻文件夹碰运气。

而在跨模态检索的加持下,他可以直接描述问题的特征,系统就能从图表、录音、文档中同时检索,把三年前一位已经离职的老哥在某次会议上提到的解决方案精准地调出来。

企业最宝贵的经验不再系于某个人的记忆,知识库从一个堆放杂物的仓库,变成了一个随时响应、迅速调用的实时大脑。

更远一些看,在具身智能领域,跨模态嵌入可能成为机器人理解物理世界的基础设施。当一个仓储机器人听到“把那个红色的、摸起来比较软的东西拿过来”时,它可以同时处理语言指令、视觉识别和触觉记忆,并在语义空间中找到这三者的交汇点。

在统一的向量空间里建立视觉、听觉与逻辑的通感,这恰恰是Gemini Embedding 2所擅长的事情,让机器人不再机械地执行预设指令,而是像人一样在真实的物理空间中感知、判断、行动。

谷歌已经出手了。留给对手的时间窗口,正在关闭。

本文来自微信公众号“字母AI”,作者:刘奕君,36氪经授权发布。

发布时间:2026-03-13 19:00