阿里通义千问大模型碾压GPT-4o，数学70.3分震惊AI界

阿里巴巴近日升级了第三代通义千问大模型家族，在人工智能领域迈出重要一步。新媒网跨境获悉，这款名为Qwen3-235B-A22B-Instruct-2507-FP8的新模型，在特定任务中展现出超越国际同行的性能表现。

从测试数据来看，该模型在2025年美国数学邀请赛测试中获得70.3分，超过国内同行深度求索模型的46.6分，也领先美国OpenAI公司GPT-4o-0327模型的26.7分。在编程能力方面，其于MultiPL-E基准测试取得87.9分，略高于深度求索的82.2分和OpenAI的82.7分，不过稍低于美国Anthropic公司Claude Opus 4非思考模式的88.5分。
Qwen3模型与其他AI系统测试得分对比图

技术升级带来显著进步。相较于前代Qwen3-235B-A22B-FP8，新版模型文本处理能力大幅增强，上下文窗口扩展至25.6万token。这意味着它能更流畅地处理超长对话内容，不过当前仍采用非思考模式，直接输出结果而不展示详细推理过程。

新媒网跨境注意到，此次升级不仅停留在技术层面，更实现了产业落地。阿里方面透露，参数规模30亿的Qwen模型即将集成到惠普电脑的中国版智能助手"小惠"中。美国知名电脑品牌惠普此次合作，将提升其产品的文档撰写、会议纪要等办公场景应用体验。

行业观察人士指出，此次模型升级展现出中国AI企业在核心技术领域的持续突破。新媒网跨境认为，大语言模型处理能力的提升，将为智能办公、教育辅助等领域带来更优质的服务体验。尤其在长文本理解和复杂任务处理方面，技术突破正在打开新的应用场景。

值得关注的是，本次测试中通义千问展现出的数学与编程能力，对科研工作者和开发人员具有实际价值。模型处理专业问题的精度提升，意味着人工智能正成为人类知识工作的重要辅助工具。

新媒网跨境预测，随着国产大模型在多维度测试中持续进步，未来人工智能技术将更深入地融入产业升级进程。从实验室到应用场景的技术转化，正在为数字经济发展注入新动能。这种技术演进不仅推动产业智能化转型，也为全球人工智能领域的技术进步贡献着中国智慧。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/6073.html