欧美AI风口!Google Gemini 2.5 Deep Think模型HLE实测暴涨34.8%?

Google正在推出其最先进的AI推理模型Gemini 2.5 Deep Think，该模型能够通过并行探索和考虑多个想法来回答问题，然后利用这些输出来选择最佳答案。

Gemini 2.5 Deep Think发布及功能

外媒报道，Google DeepMind于2025年第二季度正式推出Gemini 2.5 Deep Think。该模型被Google称为其最先进的AI推理模型，其核心能力在于能够同时探索和考虑多个想法，从而更有效地找到问题的答案。

Gemini 2.5 Deep Think是Google首个公开提供的多代理模型。与单代理模型不同，多代理系统能够生成多个AI代理并行处理问题。虽然这种方式需要消耗更多的计算资源，但通常能够产生更优质的答案。从2025年8月起，每月支付250美元Ultra订阅费的用户可以通过Gemini应用程序访问Gemini 2.5 Deep Think。

Google在国际数学奥林匹克竞赛(IMO)上的应用

Google透露，他们使用了一种Gemini 2.5 Deep Think的变体版本，在今年的国际数学奥林匹克竞赛（IMO）中获得了金牌。与此同时，该公司表示，它正在向部分数学家和学者发布其在IMO中使用的模型。Google称，这种AI模型“需要数小时才能进行推理”，而大多数面向消费者的AI模型只需要几秒钟或几分钟。该公司希望IMO模型能够加强研究工作，并旨在获得关于如何改进多代理系统以用于学术用途的反馈。

模型性能的提升

Google指出，Gemini 2.5 Deep Think模型相对于其在I/O大会上宣布的模型有了显著改进。该公司还声称已经开发出“新型强化学习技术”，以鼓励Gemini 2.5 Deep Think更好地利用其推理路径。

Google在一篇博文中表示：“Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

模型性能的基准测试结果

Google声称，Gemini 2.5 Deep Think在Humanity’s Last Exam（HLE）上取得了最先进的性能。HLE是一项具有挑战性的测试，旨在衡量AI回答来自众包的关于数学、人文科学和科学等数千个问题的能力。Google表示，其模型在HLE（不使用工具）上的得分为34.8%，而xAI的Grok 4为25.4%，OpenAI的o3为20.3%。Google还表示，Gemini 2.5 Deep Think在LiveCodeBench6（一项具有挑战性的竞争性编码任务测试）上的表现优于OpenAI、xAI和Anthropic的AI模型。Google的模型得分为87.6%，而Grok 4得分为79%，OpenAI的o3得分为72%。
图片说明

Gemini 2.5 Deep Think能够自动使用代码执行和Google搜索等工具。Google表示，该模型能够生成比传统AI模型“更长的响应”。在Google的测试中，与其他AI模型相比，该模型产生了更详细、更美观的Web开发任务。该公司声称，该模型可以帮助研究人员，并“有可能加速发现之路”。
图片说明

多代理系统成趋势

目前，多家领先的AI实验室都在向多代理方法靠拢。埃隆·马斯克的xAI公司在2024年发布了自己的多代理系统Grok 4 Heavy，并声称该系统在多个基准测试中取得了行业领先的性能。OpenAI研究员Noam Brown在一个播客中表示，该公司用于在今年的国际数学奥林匹克竞赛（IMO）中获得金牌的未发布AI模型也是一个多代理系统。同时，Anthropic的研究代理（能够生成全面的研究简报）也是由一个多代理系统驱动的。

尽管多代理系统性能强大，但其服务成本似乎高于传统AI模型。这意味着科技公司可能会将这些系统限制在其最昂贵的订阅计划中，xAI和Google都选择了这样做。

未来计划

Google计划在未来几周内通过Gemini API与部分测试人员分享Gemini 2.5 Deep Think。该公司表示，希望更好地了解开发者和企业如何使用其多代理系统。

新媒网跨境了解到，多代理AI模型的发展是AI技术领域的重要进展，它代表了AI解决问题方式的转变，从单一路径探索转变为多路径并行探索，这有望在多个领域带来创新。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/9106.html