谷歌搜索技术预警:MUVERA提速!图基础模型精度暴涨3-40倍?
在2025年第二季度于亚洲举行的Search Central Live Deep Dive活动中,谷歌(Google)的Gary Illyes 就谷歌是否采用了名为多向量检索(Multi‑Vector Retrieval via Fixed‑Dimensional Encodings,简称MUVERA)的新型检索方法以及图基础模型(Graph Foundation Models,简称GFM)等问题做出了回应。
谷歌对MUVERA的回应
MUVERA是谷歌在近期对外媒发布的一篇博客文章和研究论文中提出的。该方法旨在通过将复杂的多向量搜索转化为快速的单向量搜索来提升检索效率。
MUVERA通过将token embeddings(词嵌入)压缩成固定维度的向量来实现,这些向量能够精确地模拟原始的相似度。因此,MUVERA能够运用优化的单向量搜索方法快速找到合适的候选对象,并使用精确的多向量相似度对这些候选对象进行重新排序。
相较于早期的系统,例如PLAID,MUVERA在提升召回率的同时,速度更快,检索出的候选对象更少,使其成为大规模检索的实用解决方案。
MUVERA的关键点包括:
- MUVERA使用固定维度编码(Fixed Dimensional Encodings,简称FDEs)将多向量集转换为固定向量。FDEs是多向量集的单向量表示。
- 这些FDEs(固定维度编码)与原始的多向量比较结果高度匹配,从而支持精确的检索。
- MUVERA检索使用MIPS(Maximum Inner Product Search,最大内积搜索),这是一种在检索中常用的成熟搜索技术,便于大规模部署。
- 重排序:在利用快速单向量搜索(MIPS)快速缩小最有可能匹配的范围后,MUVERA使用Chamfer相似度(一种更详细的多向量比较方法)对结果进行重新排序。这一最终步骤恢复了多向量检索的完整精度,兼顾了速度和精确性。
- 与作为基准的PLAID相比,MUVERA能够以更低的运行时间找到更多精确相关的文档。
在活动中,José Manuel Morgal向谷歌的Gary Illyes提问,Illyes开玩笑地反问MUVERA是什么,然后确认谷歌正在使用一个与MUVERA类似的版本,但没有用相同的名称来称呼它。
José描述了当时的问答过程:“谷歌研究部门发表了一篇关于MUVERA的文章,并附有一篇相关的论文。这项技术目前是否已应用于搜索?他的回答是先问我MUVERA是什么,哈哈,然后他说他们使用了一种类似于MUVERA的技术,但没有这样命名。”
谷歌对图基础模型(GFM)的回应
谷歌近期还发布了一篇关于人工智能突破——图基础模型的博文。
谷歌的图基础模型(GFM)是一种通过将关系数据库转换为图来从中学习的人工智能。在图中,行成为节点,表之间的连接成为边。
与只能处理单个数据集的早期模型(机器学习模型和图神经网络(GNNs))不同,GFM无需在新数据上重新训练,即可处理具有不同结构和特征的新数据库。
GFM使用大型AI模型来学习数据点如何在表中关联。这使GFM能够发现常规模型遗漏的模式,并且在谷歌的大规模系统中执行垃圾邮件检测等任务时表现更好。
GFM代表着一个巨大的进步,因为它将基础模型的灵活性带到了复杂的结构化数据中。
图基础模型是一项显著的成就,因为它们的改进并非渐进式的。它们带来了数量级的改进,平均精度提高了3倍到40倍。
José随后询问Illyes,谷歌是否使用了图基础模型。Gary再次开玩笑地假装不知道José在说什么。
José描述了当时的问答:“谷歌研究部门发表了一篇关于数据图基础模型的文章,但这次没有相关的论文。它目前是否已应用于搜索?他的回答和之前一样,问我什么是数据图基础模型。他认为这项技术尚未投入使用。他不知道,因为没有相关的论文,而且他还告诉我,他不负责谷歌研究博客上发布的内容。”
Gary表示,他认为图基础模型目前尚未应用于搜索。新媒网跨境了解到,根据目前的信息,这似乎是最可靠的说法。
GFM是否已准备好进行大规模部署?
谷歌官方发布的图基础模型公告称,该模型已在一项内部任务(广告中的垃圾邮件检测)中进行了测试,这强烈表明使用了真实的内部系统和数据,而不仅仅是学术基准或模拟。
谷歌的公告称:“在谷歌的规模下运营意味着处理数十亿节点和边的图,而我们的JAX环境和可扩展的TPU基础设施在其中特别出色。如此庞大的数据量适合训练通用模型,因此我们在多个内部分类任务(如广告中的垃圾邮件检测)中探测了我们的GFM,这些任务涉及数十个大型且相互连接的关系表。典型的表格基线虽然可扩展,但不考虑不同表行之间的连接,因此会遗漏可能有助于准确预测的上下文。我们的实验生动地展示了这种差距。”
总结
谷歌的Gary Illyes证实,谷歌正在使用某种形式的MUVERA。新媒网跨境认为,他对GFM的回答似乎是一种个人观点,因此不太明确。根据他的说法,他认为GFM尚未投入使用。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)