谷歌Gemini 3上线！独立测试得37.4分，推理超GPT！

日前，全球科技巨头谷歌公司正式推出了其最新一代旗舰基础模型Gemini 3。这一高级模型目前已通过Gemini应用程序和谷歌的AI搜索界面全面上线，供用户即时体验。此次发布距离Gemini 2.5版本面世仅隔七个月，标志着谷歌在大型语言模型（LLM）领域取得了新的突破，Gemini 3已成为当前市场上最具竞争力的顶尖AI工具之一。

新媒网跨境了解到，Gemini 3的发布时间点颇具看点，距离OpenAI推出GPT 5.1不到一周，距离Anthropic发布Sonnet 4.5也仅有两个月。这一系列事件清晰展现了前沿AI模型开发领域惊人的发展速度和激烈的竞争态势。此外，谷歌公司还计划在未来几周内，为Google AI Ultra订阅用户推出一个更侧重研究的版本——Gemini 3 Deepthink。该版本将在完成进一步的安全测试后，正式与用户见面。

谷歌Gemini模型产品负责人图尔西·多西（Tulsee Doshi）在谈到Gemini 3时表示，公司观察到该模型在推理能力方面实现了“巨大飞跃”，其在回应深度和细致性上达到了前所未有的水平。

Gemini 3的强大推理能力已在独立基准测试中得到验证。在新近的“人类终极测试”（Humanity's Last Exam）基准测试中，Gemini 3取得了37.4分的历史最高成绩，该测试旨在全面评估通用推理和专业知识水平。此前，由GPT-5 Pro保持的最高纪录为31.64分。此外，Gemini 3还在LMArena榜单上名列前茅，这是一个以用户满意度为衡量标准的人工主导基准测试。

根据谷歌公布的数据，Gemini应用程序当前拥有超过6.5亿的月活跃用户，并且已有1300万软件开发人员将该模型整合到其日常工作流程中，这体现了其在用户和专业领域广泛的接受度与应用潜力。
Google Gemini

除了基础模型外，谷歌还同步发布了一款由Gemini驱动的编程界面——Google Antigravity。这款工具支持多面板代理式编程，类似于Warp或Cursor 2.0等代理式集成开发环境（IDE）。具体而言，Antigravity将类似ChatGPT的提示窗口与命令行界面以及浏览器窗口相结合，能够实时展示编程代理所做更改的影响。

DeepMind首席技术官科雷·卡夫库格鲁（Koray Kavukcuoglu）对此评论称，该代理能够与用户的编辑器、终端和浏览器协同工作，确保以最优方式协助用户构建应用程序。此次创新旨在进一步提升开发效率和用户体验，为程序员提供更加智能化的开发环境。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/google-gemini-3-launches-scores-374-beats-gpt.html