谷歌AI!8月视觉革新,跨境服务效率飙升
2025年8月初,谷歌公司旗下的实时AI助手Gemini Live将迎来一系列功能更新。此次升级旨在进一步提升用户与AI的实时对话体验,特别是通过视觉交互与应用集成,使Gemini Live能够更直观、更深入地融入用户的数字生活。
新媒网跨境获悉,Gemini Live的一项重要新增功能是其屏幕高亮显示能力。在用户共享手机摄像头时,Gemini Live将可以直接在屏幕上高亮显示其正在讨论的特定对象或区域,从而极大地提高了AI助手识别和指向具体物品的效率和准确性。
这项功能的实际应用场景广泛。例如,当用户需要寻找特定工具来完成一项项目时,只需将智能手机摄像头对准一堆工具,Gemini Live便能即时识别并高亮显示出符合要求的那一个。这种直观的视觉反馈机制,使得AI助手能够以一种前所未有的方式,直接“指向”现实世界中的信息,有效弥补了传统语音或文本交互在具象事物指代上的不足。
根据官方公布的信息,这项屏幕高亮功能将首先在2025年8月28日发布的新款Pixel 10设备上推出。同时,谷歌也计划在同一时间段内,逐步将此视觉引导功能推广至其他安卓设备。随后,在接下来的数周内,该功能也将陆续覆盖至iOS平台,旨在惠及更广泛的用户群体。
除了视觉交互的增强,谷歌还在积极推进Gemini Live与更多核心应用之间的深度集成,这包括了消息(Messages)、电话(Phone)和时钟(Clock)等常用应用。这项集成意味着Gemini Live将不再仅仅是一个提供信息或进行对话的工具,它将能够直接介入并执行与这些应用相关的任务,从而在更复杂的、跨应用的场景中提供无缝协助。
这种集成能力极大地拓展了AI助手的功能边界,使其能够更好地理解和响应多步骤的用户指令。例如,在用户与Gemini Live讨论前往某个目的地的路线时,如果用户突然意识到自己可能会迟到,可以直接中断当前的对话,并向Gemini Live发出新的指令:“这条路线看起来不错。现在,给小李发一条消息,告诉他我大概会晚到10分钟。”接到指令后,Gemini Live便能够根据上下文草拟一条短信,并直接通过消息应用发送给指定联系人。
这种智能的上下文理解和跨应用执行能力,标志着AI助手正在从被动的信息检索者,向主动的事务协调者和执行者转变。它允许用户在一次连贯的对话中完成一系列相关的操作,无需频繁切换应用或手动输入信息,这无疑会大幅提升用户在日常沟通和管理任务中的效率和便捷性。尤其是在快速变化或需要即时响应的场景中,例如驾驶途中、双手被占用时,这项功能将展现出其独特的价值。
此外,谷歌还为Gemini Live推出了一个更新的音频模型。据谷歌方面介绍,这一模型将“显著改进”AI助手对人类语音关键元素(如语调、节奏和音高)的运用方式。这意味着Gemini Live在与用户进行实时对话时,其语音将变得更加自然、富有表现力,甚至能够根据对话内容调整其语态。例如,当用户谈及一个令人感到压力的主题时,Gemini Live可能会采用一种更加平静的声调进行回应。
这项音频模型的升级,使得AI助手的语音交互体验更接近于人类之间的交流。除了语音的自然度,用户还将能够调整Gemini Live的语速,使其说话速度或快或慢,这与目前某些AI语音助手(如外媒报道中提及的ChatGPT语音模式)提供给用户的自定义选项类似。更具趣味性的是,如果用户要求Gemini Live以特定角色或历史人物的视角,戏剧性地重述一个故事,该AI助手甚至可能会模仿相应的口音,以提供一个“丰富而引人入胜的叙述”。
这些语音层面的进步,不仅提升了听觉体验,更在于增强了AI助手的情感表达和叙事能力,使其在提供信息和执行任务的同时,也能创造更具沉浸感和个性化的互动。这体现了AI技术在模拟人类沟通细节方面的持续投入,旨在让AI助手不仅“能听会说”,更能“听懂会说”,甚至“善听善说”。
综合来看,谷歌对Gemini Live的这一系列更新,包括视觉引导、深度应用集成以及先进的音频模型,共同勾勒出AI助手未来发展的清晰图景:一个不再局限于单一模式,而是能够无缝融合视觉、听觉和多应用操作的智能实体。这些发展方向预示着AI助手将从幕后走向前台,成为用户日常生活和工作流中不可或缺的、更加智能和个性化的伙伴。新媒网跨境了解到,这标志着AI助手正在向更高级的上下文感知和多模态交互迈进,最终目标是提供更自然、更高效的人机互动体验。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)