谷歌2025推AI浏览器代理,跨境电商效率将暴涨!
谷歌公司在2025年2月发布了其最新的人工智能模型Gemini 2.5 Computer Use,该模型具备了通过网页浏览器进行操作的能力,能够像人类用户一样,在浏览器窗口中执行点击、滚动和输入等动作,从而获取那些无法通过API直接访问的数据。这一进展标志着人工智能代理在理解和交互人类设计界面方面迈出了重要一步。
新媒网跨境了解到,Gemini 2.5 Computer Use模型的核心在于其强大的“视觉理解和推理能力”。该模型能够分析用户的请求,并据此在网页界面中完成特定任务,例如自动填写并提交在线表格。这种能力使得AI代理能够处理那些原本需要人工介入或专门API支持才能完成的复杂网页操作。
这项技术在多个应用场景中展现出潜力。例如,它可以用于用户界面(UI)测试,帮助开发者自动化检测网页应用的交互逻辑。此外,对于那些没有提供API或直接连接的网站界面,Gemini 2.5 Computer Use模型提供了一种通过模拟人类操作来访问和利用数据的新途径。谷歌此前已将该模型的其他版本应用于AI模式中的代理功能以及Project Mariner研究原型项目。Project Mariner利用AI代理在浏览器中自主执行任务,比如根据一份食材清单自动将商品添加到购物车。
谷歌此次发布正值人工智能领域竞争激烈的时期。就在谷歌宣布前一天,OpenAI在其年度开发者大会上发布了ChatGPT的新应用,并持续聚焦其能够完成复杂任务的ChatGPT Agent功能。此外,Anthropic公司也已在2024年发布了带有“计算机使用”功能的Claude AI模型版本。这表明,让AI代理能够更深入地与数字环境交互,是当前人工智能发展的一个关键方向。
谷歌展示了一些演示视频,其中Gemini 2.5 Computer Use工具在浏览器中执行任务,这些视频经过3倍速处理以展示其操作效率。据谷歌介绍,其计算机使用模型在多项网络和移动基准测试中,表现优于行业内其他领先的替代方案。值得注意的是,与ChatGPT Agent和Anthropic的计算机使用工具不同,谷歌的这款新AI模型目前仅限于访问浏览器环境,而非整个计算机操作系统。谷歌方面也指出,该模型尚未针对桌面操作系统级别的控制进行优化。当前,它支持13种不同的操作,包括打开网页浏览器、输入文本以及拖放元素等。
Gemini 2.5 Computer Use模型目前已通过Google AI Studio和Vertex AI向开发者开放预览。此外,用户还可以在Browserbase平台上体验其演示版本,观看模型完成诸如“玩2048游戏”或“浏览Hacker News上的热门讨论”等任务。这为开发者提供了一个平台,以探索和利用这项技术在自动化网页交互、增强用户体验以及开发新型AI应用方面的潜力。
这项技术的推出,反映了人工智能发展的一个重要趋势:从传统的问答、内容生成,逐步走向更深层次的数字环境交互和任务执行。通过赋予AI代理像人类一样操作网页界面的能力,企业和开发者可以期待在自动化办公、数据抓取、客户服务以及在线研究等领域实现效率的显著提升。尤其是在跨境电商领域,面对大量需要人工操作的平台后台、信息录入和竞品分析等工作,这种能力有望带来更智能、更高效的解决方案。
新媒网认为,Gemini 2.5 Computer Use模型的出现,预示着AI代理将更广泛地融入我们的日常数字工作流中。随着技术的不断成熟和功能的进一步拓展,AI代理在浏览器中的操作能力将不仅限于简单的任务执行,未来可能会实现更复杂的决策和策略制定,从而在更广阔的范围内驱动生产力革新。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/google-2025-ai-browser-agent-for-xborder-ecom.html

评论(0)