欧美AI风口!Google Gemini 2.5 Deep Think模型HLE实测暴涨34.8%?
Google正在推出其最先进的AI推理模型Gemini 2.5 Deep Think,该模型能够通过并行探索和考虑多个想法来回答问题,然后利用这些输出来选择最佳答案。
Gemini 2.5 Deep Think发布及功能
外媒报道,Google DeepMind于2025年第二季度正式推出Gemini 2.5 Deep Think。该模型被Google称为其最先进的AI推理模型,其核心能力在于能够同时探索和考虑多个想法,从而更有效地找到问题的答案。
Gemini 2.5 Deep Think是Google首个公开提供的多代理模型。与单代理模型不同,多代理系统能够生成多个AI代理并行处理问题。虽然这种方式需要消耗更多的计算资源,但通常能够产生更优质的答案。从2025年8月起,每月支付250美元Ultra订阅费的用户可以通过Gemini应用程序访问Gemini 2.5 Deep Think。
Google在国际数学奥林匹克竞赛(IMO)上的应用
Google透露,他们使用了一种Gemini 2.5 Deep Think的变体版本,在今年的国际数学奥林匹克竞赛(IMO)中获得了金牌。与此同时,该公司表示,它正在向部分数学家和学者发布其在IMO中使用的模型。Google称,这种AI模型“需要数小时才能进行推理”,而大多数面向消费者的AI模型只需要几秒钟或几分钟。该公司希望IMO模型能够加强研究工作,并旨在获得关于如何改进多代理系统以用于学术用途的反馈。
模型性能的提升
Google指出,Gemini 2.5 Deep Think模型相对于其在I/O大会上宣布的模型有了显著改进。该公司还声称已经开发出“新型强化学习技术”,以鼓励Gemini 2.5 Deep Think更好地利用其推理路径。
Google在一篇博文中表示:“Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”
模型性能的基准测试结果
Google声称,Gemini 2.5 Deep Think在Humanity’s Last Exam(HLE)上取得了最先进的性能。HLE是一项具有挑战性的测试,旨在衡量AI回答来自众包的关于数学、人文科学和科学等数千个问题的能力。Google表示,其模型在HLE(不使用工具)上的得分为34.8%,而xAI的Grok 4为25.4%,OpenAI的o3为20.3%。Google还表示,Gemini 2.5 Deep Think在LiveCodeBench6(一项具有挑战性的竞争性编码任务测试)上的表现优于OpenAI、xAI和Anthropic的AI模型。Google的模型得分为87.6%,而Grok 4得分为79%,OpenAI的o3得分为72%。
Gemini 2.5 Deep Think能够自动使用代码执行和Google搜索等工具。Google表示,该模型能够生成比传统AI模型“更长的响应”。在Google的测试中,与其他AI模型相比,该模型产生了更详细、更美观的Web开发任务。该公司声称,该模型可以帮助研究人员,并“有可能加速发现之路”。
多代理系统成趋势
目前,多家领先的AI实验室都在向多代理方法靠拢。埃隆·马斯克的xAI公司在2024年发布了自己的多代理系统Grok 4 Heavy,并声称该系统在多个基准测试中取得了行业领先的性能。OpenAI研究员Noam Brown在一个播客中表示,该公司用于在今年的国际数学奥林匹克竞赛(IMO)中获得金牌的未发布AI模型也是一个多代理系统。同时,Anthropic的研究代理(能够生成全面的研究简报)也是由一个多代理系统驱动的。
尽管多代理系统性能强大,但其服务成本似乎高于传统AI模型。这意味着科技公司可能会将这些系统限制在其最昂贵的订阅计划中,xAI和Google都选择了这样做。
未来计划
Google计划在未来几周内通过Gemini API与部分测试人员分享Gemini 2.5 Deep Think。该公司表示,希望更好地了解开发者和企业如何使用其多代理系统。
新媒网跨境了解到,多代理AI模型的发展是AI技术领域的重要进展,它代表了AI解决问题方式的转变,从单一路径探索转变为多路径并行探索,这有望在多个领域带来创新。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)