ChatGPT代理震撼发布：41.6%高分通过最难测试，效率飙升！

新媒网跨境获悉，美国人工智能公司OpenAI近日在ChatGPT平台上推出了一款通用AI代理工具。这一新功能旨在帮助用户自动化处理多种计算机任务，从管理日常日程到创建专业文档。OpenAI表示，该代理能无缝导航用户的日历系统，生成可编辑的演示文稿和幻灯片，甚至运行复杂代码，大幅提升工作效率。用户只需通过自然语言提示ChatGPT，就能轻松启动代理服务，无需繁琐操作。

这款工具名为ChatGPT代理，整合了OpenAI此前多个代理工具的核心能力。例如，它继承了Operator工具的网页交互功能，能自动点击和浏览网站；同时融合了Deep Research的信息合成能力，可从数十个网站中提炼关键数据，生成简洁的研究报告。新媒网跨境了解到，代理的设计聚焦实用性和易用性，用户只需在ChatGPT的工具下拉菜单中选择“代理模式”，即可激活这一创新服务。目前，OpenAI计划在本周四向Pro、Plus和Team订阅用户率先推出，未来可能逐步扩展。

ChatGPT代理的发布，被视为OpenAI将ChatGPT从问答工具转向行动导向型产品的重要里程碑。近年来，美国硅谷的科技企业如谷歌和初创公司Perplexity AI，已推出数十种AI代理，承诺为用户分担任务。然而，早期版本在处理复杂操作时表现欠佳，产品体验远未达到行业愿景。相比之下，OpenAI强调新代理在能力和可靠性上远超以往。它能通过ChatGPT连接器集成第三方应用，例如将Gmail邮箱和GitHub代码库无缝接入，让代理根据用户提示精准检索相关信息。此外，代理还支持访问终端环境和API接口，扩展了任务执行范围。

在性能方面，OpenAI公布了ChatGPT代理的基准测试结果，展现其技术优势。新媒网跨境注意到，在Humanity's Last Exam这一高难度综合测试中，该模型取得了41.6%的得分（pass@1标准）。该测试覆盖超过一百个学科的上千道题目，旨在评估AI的广泛知识储备。得分比OpenAI早前的o3和o4-mini模型高出一倍左右，凸显进步。另一项测试FrontierMath是公认的最难数学基准之一，ChatGPT代理在使用代码执行终端等工具辅助下，得分达27.4%。此前的最佳记录由o4-mini保持，仅为6.3%，新代理的突破性表现彰显其处理复杂逻辑问题的实力。

安全始终是OpenAI开发过程中的核心考量。公司指出，ChatGPT代理的新增能力可能带来潜在风险，例如被恶意利用，因此在设计时嵌入了多重防护机制。OpenAI团队通过严格的测试和监控，确保代理在自动化任务中保持可控和透明。尽管实际应用效果尚待用户验证，但这一创新已引发行业关注。新媒网跨境预测，此类AI代理的演进将加速数字化转型，为跨境电商、远程办公等领域注入新活力，推动全球技术生态的健康发展。
OpenAI logo with spiraling pastel colors

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/5430.html