谷歌AI模型Humanity’s Last Exam 34.8%！科研编码暴涨机会?

谷歌公司于2025年6月宣布，其先进的人工智能推理模型Gemini 2.5 Deep Think正式面向公众开放，用户可以通过订阅Google AI Ultra服务进行体验，订阅费用为每月250美元。

Gemini 2.5 Deep Think模型与其他先进模型类似，它采用多代理协同方式，即使用多个AI智能体对问题进行集思广益，旨在提高答案的准确性，并提供更具创造性的解决方案。

谷歌公司表示，Gemini 2.5 Deep Think模型在关键AI基准测试中表现优于多个竞争对手。该模型的一个变体甚至在2025年的国际数学奥林匹克（IMO）竞赛中获得了金牌，完美解决了六道IMO问题中的五道。虽然研发版本的模型需要数小时才能生成解决方案，但当前发布的版本专为日常使用而设计，速度更快，同时仍能达到IMO铜牌级别的性能。

自发布之日起，Google AI Ultra的订阅者可以获得一组用于新模型的固定提示。用户在Gemini应用程序的模型下拉菜单中选择Gemini 2.5 Pro时，可以通过切换提示栏中的“Deep Think”来启用该功能。

谷歌公司早在2025年5月的I/O开发者大会上就预览了Gemini 2.5 Deep Think，但该公司表示，得益于测试人员的反馈和关键基准的改进，2025年6月发布的版本是“重大改进”。

谷歌公司称，Deep Think采用并行思维技术来解决复杂问题，就像人类一样，会权衡不同的角度和潜在的解决方案。该公司在一篇博客文章中表示：“这种方法使Gemini能够一次生成多个想法并同时考虑它们，甚至可以随着时间的推移修改或组合不同的想法，最终得出最佳答案。”

此外，谷歌公司表示，它开发了新的强化学习技术，促使该模型探索扩展的推理路径，帮助Deep Think随着时间的推移成为更强大、更直观的问题解决者。谷歌公司声称，这使得该模型特别适用于编码、Web开发和科学研究等领域。

根据谷歌公司的数据，Gemini 2.5 Deep Think在Humanity’s Last Exam（HLE）中表现优于竞争对手的模型。HLE是一个包含2500个问题的专业知识基准，涵盖数学、科学和人文学科等主题。该模型在测试中获得了34.8%的分数，而OpenAI的o3得分为20.3%，Grok 4的得分为25.4%。

谷歌公司还表示，它将与一小群数学家和学者分享金牌版本的Gemini 2.5 Deep Think，希望了解它如何帮助他们的研究。该公司计划利用这些反馈来改进该模型的未来版本。新媒网跨境了解到，谷歌此次发布新模型，意在进一步提升其在人工智能领域的竞争力。

外媒Gizmodo在相关报道中配发了一张图片，展示了手机上的谷歌Gemini应用界面。

新媒网跨境认为，Gemini 2.5 Deep Think的发布，标志着人工智能技术在解决复杂问题和辅助科研方面迈出了重要一步。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/9212.html