谷歌AI!8月视觉革新，跨境服务效率飙升

2025年8月初，谷歌公司旗下的实时AI助手Gemini Live将迎来一系列功能更新。此次升级旨在进一步提升用户与AI的实时对话体验，特别是通过视觉交互与应用集成，使Gemini Live能够更直观、更深入地融入用户的数字生活。

新媒网跨境获悉，Gemini Live的一项重要新增功能是其屏幕高亮显示能力。在用户共享手机摄像头时，Gemini Live将可以直接在屏幕上高亮显示其正在讨论的特定对象或区域，从而极大地提高了AI助手识别和指向具体物品的效率和准确性。

这项功能的实际应用场景广泛。例如，当用户需要寻找特定工具来完成一项项目时，只需将智能手机摄像头对准一堆工具，Gemini Live便能即时识别并高亮显示出符合要求的那一个。这种直观的视觉反馈机制，使得AI助手能够以一种前所未有的方式，直接“指向”现实世界中的信息，有效弥补了传统语音或文本交互在具象事物指代上的不足。

根据官方公布的信息，这项屏幕高亮功能将首先在2025年8月28日发布的新款Pixel 10设备上推出。同时，谷歌也计划在同一时间段内，逐步将此视觉引导功能推广至其他安卓设备。随后，在接下来的数周内，该功能也将陆续覆盖至iOS平台，旨在惠及更广泛的用户群体。

除了视觉交互的增强，谷歌还在积极推进Gemini Live与更多核心应用之间的深度集成，这包括了消息（Messages）、电话（Phone）和时钟（Clock）等常用应用。这项集成意味着Gemini Live将不再仅仅是一个提供信息或进行对话的工具，它将能够直接介入并执行与这些应用相关的任务，从而在更复杂的、跨应用的场景中提供无缝协助。

这种集成能力极大地拓展了AI助手的功能边界，使其能够更好地理解和响应多步骤的用户指令。例如，在用户与Gemini Live讨论前往某个目的地的路线时，如果用户突然意识到自己可能会迟到，可以直接中断当前的对话，并向Gemini Live发出新的指令：“这条路线看起来不错。现在，给小李发一条消息，告诉他我大概会晚到10分钟。”接到指令后，Gemini Live便能够根据上下文草拟一条短信，并直接通过消息应用发送给指定联系人。

这种智能的上下文理解和跨应用执行能力，标志着AI助手正在从被动的信息检索者，向主动的事务协调者和执行者转变。它允许用户在一次连贯的对话中完成一系列相关的操作，无需频繁切换应用或手动输入信息，这无疑会大幅提升用户在日常沟通和管理任务中的效率和便捷性。尤其是在快速变化或需要即时响应的场景中，例如驾驶途中、双手被占用时，这项功能将展现出其独特的价值。

此外，谷歌还为Gemini Live推出了一个更新的音频模型。据谷歌方面介绍，这一模型将“显著改进”AI助手对人类语音关键元素（如语调、节奏和音高）的运用方式。这意味着Gemini Live在与用户进行实时对话时，其语音将变得更加自然、富有表现力，甚至能够根据对话内容调整其语态。例如，当用户谈及一个令人感到压力的主题时，Gemini Live可能会采用一种更加平静的声调进行回应。

这项音频模型的升级，使得AI助手的语音交互体验更接近于人类之间的交流。除了语音的自然度，用户还将能够调整Gemini Live的语速，使其说话速度或快或慢，这与目前某些AI语音助手（如外媒报道中提及的ChatGPT语音模式）提供给用户的自定义选项类似。更具趣味性的是，如果用户要求Gemini Live以特定角色或历史人物的视角，戏剧性地重述一个故事，该AI助手甚至可能会模仿相应的口音，以提供一个“丰富而引人入胜的叙述”。

这些语音层面的进步，不仅提升了听觉体验，更在于增强了AI助手的情感表达和叙事能力，使其在提供信息和执行任务的同时，也能创造更具沉浸感和个性化的互动。这体现了AI技术在模拟人类沟通细节方面的持续投入，旨在让AI助手不仅“能听会说”，更能“听懂会说”，甚至“善听善说”。

综合来看，谷歌对Gemini Live的这一系列更新，包括视觉引导、深度应用集成以及先进的音频模型，共同勾勒出AI助手未来发展的清晰图景：一个不再局限于单一模式，而是能够无缝融合视觉、听觉和多应用操作的智能实体。这些发展方向预示着AI助手将从幕后走向前台，成为用户日常生活和工作流中不可或缺的、更加智能和个性化的伙伴。新媒网跨境了解到，这标志着AI助手正在向更高级的上下文感知和多模态交互迈进，最终目标是提供更自然、更高效的人机互动体验。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/17434.html