ChatGPT代理震撼发布:41.6%高分通过最难测试,效率飙升!
新媒网跨境获悉,美国人工智能公司OpenAI近日在ChatGPT平台上推出了一款通用AI代理工具。这一新功能旨在帮助用户自动化处理多种计算机任务,从管理日常日程到创建专业文档。OpenAI表示,该代理能无缝导航用户的日历系统,生成可编辑的演示文稿和幻灯片,甚至运行复杂代码,大幅提升工作效率。用户只需通过自然语言提示ChatGPT,就能轻松启动代理服务,无需繁琐操作。
这款工具名为ChatGPT代理,整合了OpenAI此前多个代理工具的核心能力。例如,它继承了Operator工具的网页交互功能,能自动点击和浏览网站;同时融合了Deep Research的信息合成能力,可从数十个网站中提炼关键数据,生成简洁的研究报告。新媒网跨境了解到,代理的设计聚焦实用性和易用性,用户只需在ChatGPT的工具下拉菜单中选择“代理模式”,即可激活这一创新服务。目前,OpenAI计划在本周四向Pro、Plus和Team订阅用户率先推出,未来可能逐步扩展。
ChatGPT代理的发布,被视为OpenAI将ChatGPT从问答工具转向行动导向型产品的重要里程碑。近年来,美国硅谷的科技企业如谷歌和初创公司Perplexity AI,已推出数十种AI代理,承诺为用户分担任务。然而,早期版本在处理复杂操作时表现欠佳,产品体验远未达到行业愿景。相比之下,OpenAI强调新代理在能力和可靠性上远超以往。它能通过ChatGPT连接器集成第三方应用,例如将Gmail邮箱和GitHub代码库无缝接入,让代理根据用户提示精准检索相关信息。此外,代理还支持访问终端环境和API接口,扩展了任务执行范围。
在性能方面,OpenAI公布了ChatGPT代理的基准测试结果,展现其技术优势。新媒网跨境注意到,在Humanity's Last Exam这一高难度综合测试中,该模型取得了41.6%的得分(pass@1标准)。该测试覆盖超过一百个学科的上千道题目,旨在评估AI的广泛知识储备。得分比OpenAI早前的o3和o4-mini模型高出一倍左右,凸显进步。另一项测试FrontierMath是公认的最难数学基准之一,ChatGPT代理在使用代码执行终端等工具辅助下,得分达27.4%。此前的最佳记录由o4-mini保持,仅为6.3%,新代理的突破性表现彰显其处理复杂逻辑问题的实力。
安全始终是OpenAI开发过程中的核心考量。公司指出,ChatGPT代理的新增能力可能带来潜在风险,例如被恶意利用,因此在设计时嵌入了多重防护机制。OpenAI团队通过严格的测试和监控,确保代理在自动化任务中保持可控和透明。尽管实际应用效果尚待用户验证,但这一创新已引发行业关注。新媒网跨境预测,此类AI代理的演进将加速数字化转型,为跨境电商、远程办公等领域注入新活力,推动全球技术生态的健康发展。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)