谷歌AI语音搜索迈入新时代!无需转文本更快更准。

2025-10-21人机交互革命

Image

新媒网跨境获悉,全球科技巨头谷歌近期宣布,其语音搜索功能迎来了一次里程碑式的重大更新。此次更新引入了全新的人工智能模型,旨在显著提升语音搜索的速度与准确性,谷歌方面将此举誉为语音搜索领域的“新时代”序章。

谷歌此次发布的核心在于其对语音搜索查询处理及排名机制的彻底革新。过去,语音搜索依赖名为“Cascade ASR”(级联自动语音识别)的系统。该系统首先会将用户的语音指令转换为文本,随后再将这些文本输入到常规的搜索引擎排名流程中。这种方法固然有效,但其核心痛点在于语音到文本的转换环节极易出错。在这一转换过程中,语音中蕴含的诸多上下文线索可能随之丢失,进而引入误差,影响搜索结果的精准度。

为了克服这一局限,谷歌推出了全新的“Speech-to-Retrieval (S2R)”(语音到检索)系统。这是一个基于神经网络的机器学习模型,其创新之处在于能够直接将语音作为搜索和排名过程的输入,完全绕过了传统的语音转文本步骤。S2R模型通过大规模的音频查询与相关文档配对数据集进行训练,使其能够直接处理口语搜索查询,并将其与相关文档进行匹配,而无需经过任何文本转换。这意味着,系统能够更直接、更精准地理解用户的真实意图。

S2R架构解析:双编码器模型

S2R系统的核心是一套精巧的“双编码器模型”,它包含两个相互协作的神经网络:

  1. 音频编码器: 负责将口语查询转换为其含义的向量空间表示。简单来说,它能将用户说出的每个字句,转化为一串代表其语义的数字。
  2. 文档编码器: 承担类似任务,但针对的是书面信息。它将网页等文本信息同样表示为相同类型的向量格式。

这两个编码器通过协同学习,将口语查询和文本文档映射到一个共享的语义空间中。在这个空间里,语义相关度高的音频和文本文档彼此之间距离较近,而无关的则相距遥远。这种机制确保了系统能够理解语音和文本内容的深层含义关联。

音频编码器:理解言外之意

S2R系统接收到用户的语音查询后,音频编码器会将其声音数据转化为一个向量。这个向量精确捕捉了用户所表达的语义含义。例如,当用户说出“《呐喊》这幅画”时,音频编码器会将其转化为向量空间中的一个点,这个点会非常接近描述挪威艺术家爱德华·蒙克(Edvard Munch)作品《呐喊》的相关信息(例如,该画作的收藏博物馆等)。

文档编码器:洞悉文字内涵

与音频编码器相仿,文档编码器则处理文本资料。它将网络页面等文本内容转化为自身的向量,这些向量反映了文档的主题和内容。在模型训练阶段,这两个编码器同步学习,确保匹配的音频查询和文档的向量最终在语义空间中彼此靠近,而无关的则保持距离。

“丰富向量表示”:超越关键词匹配

谷歌的公告强调,这些编码器能够将音频和文本转化为“丰富向量表示”(rich vector representations)。这种“丰富”的嵌入不仅编码了音频和文本的含义,更融入了上下文信息和用户意图。对于S2R而言,这意味着系统不再单纯依赖关键词匹配;它能够“概念性地”理解用户寻求的是什么。因此,即使有人说“给我看看蒙克那幅尖叫的脸的画”,该查询的向量表示仍能与描述《呐喊》的文档高度匹配。

谷歌在其公告中阐释:“该模型的关键在于其训练方式。通过使用大量的配对音频查询和相关文档数据集,系统能够学习同时调整两个编码器的参数。训练目标确保了音频查询的向量与相应文档的向量在表示空间中几何上紧密相连。这种架构使得模型能够直接从音频中学习到更接近检索所需的本质意图,从而绕过了转录每个词语这一脆弱的中间步骤,而这正是级联设计的根本弱点。”

排名层:从语义到呈现

S2R系统同样具备一套完善的排名流程,这与传统的文本搜索类似。当用户发出语音查询时,音频首先由预训练的音频编码器处理,并转换为捕捉其含义的数值形式(向量)。随后,这个向量将与谷歌的索引进行比对,以找出含义与口语请求最相似的页面。

以上述“《呐喊》这幅画”为例,模型会将该短语转化为一个代表其含义的向量。系统随后会遍历其文档索引,寻找那些向量匹配度高的页面,例如关于爱德华·蒙克作品《呐喊》的信息。一旦识别出这些可能的匹配项,一个独立的排名阶段便会接管。这一部分系统会将第一阶段的相似性得分与数百个其他相关性和质量排名信号相结合,最终决定哪些页面应该优先展示。

基准测试:性能验证

谷歌对新系统进行了严格的基准测试,将其与Cascade ASR以及一个理论上达到完美得分的Cascade ASR版本(称为Cascade Groundtruth)进行了对比。结果显示,S2R的表现超越了Cascade ASR,并且非常接近Cascade Groundtruth的理想得分。谷歌总结认为,虽然当前表现已令人鼓舞,但仍有进一步提升的空间。

语音搜索:新时代已来临

尽管基准测试揭示了改进空间的存在,谷歌仍宣布这项新系统已经正式上线,并在多种语言环境中投入使用,将其定义为搜索领域的新纪元。该系统预计已在全球范围内(包括英文)投入运营。谷歌官方解释道:“语音搜索现已由我们全新的Speech-to-Retrieval引擎驱动,它无需先将语音转换为文本,即可直接从您的口语查询中获取答案,为所有人带来更快、更可靠的搜索体验。”

新媒网跨境了解到,谷歌此番技术革新不仅是语音搜索功能的一次迭代升级,更是对未来人机交互方式的一次积极探索。
Speech-to-Retrieval (S2R)

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/google-ai-voice-search-no-text-fast-accurate.html

评论(0)

暂无评论,快来抢沙发~
谷歌语音搜索迎来重大更新,推出基于神经网络的Speech-to-Retrieval (S2R)系统。该系统采用双编码器模型,直接将语音作为搜索和排名过程的输入,无需语音转文本,提升搜索速度与准确性。已在全球范围内上线。
发布于 2025-10-21
查看人数 188
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。