OpenAI放大招！开源大模型性能堪比商用，成本骤降30%?

近日，人工智能研究机构OpenAI宣布推出两款开源大语言模型，采用Apache 2.0许可协议发布。新媒网跨境获悉，此次发布标志着该机构首次将高性能模型以开放权重形式向开发者社区全面开放。

消费级硬件实现商用级性能
2025年第二季度发布的两款模型分别为参数规模1170亿的gpt-oss-120b和210亿参数的gpt-oss-20b。测试数据显示，大模型在推理任务中的表现与OpenAI商用产品o4-mini相当，但仅需单块80GB显存GPU即可运行；小模型性能对标o3-mini，可在16GB显存的消费级笔记本电脑上流畅运行。这种硬件适配性显著降低了企业部署AI应用的门槛。

多维度技术突破
根据OpenAI官方技术文档，新模型在三个关键领域实现突破：

推理能力方面，在数学推导、逻辑判断等基准测试中超越同规模开源模型
工具调用支持Python代码执行、网络搜索等复杂操作
采用思维链（Chain-of-Thought）技术，开发者可观察模型推理全过程

新媒网跨境了解到，模型特别设计了"推理强度调节"功能，能根据任务复杂度动态调整计算资源消耗，这对实时性要求高的应用场景具有实用价值。

开发者生态整合
OpenAI同步发布了与主流开发平台的对接指南，包括Hugging Face、GitHub等开源社区，以及vLLM、Ollama等推理框架。技术文档显示，模型完全兼容OpenAI Responses API，支持结构化输出和函数调用。企业用户可基于业务需求进行微调，并自定义安全防护机制。

安全与透明性平衡
在安全测试中，即便遭遇恶意微调，gpt-oss-120b也未展现出生物、化学或网络安全领域的危险能力。值得注意的是，OpenAI选择保留未经过滤的原始思维链数据。外媒获得的模型卡（PDF版本）显示，此举旨在维持模型行为的可监控性，但可能导致幻觉内容产生率升高。
模型幻觉率基准测试对比
图示：开源模型在幻觉率测试中表现逊于o4-mini（数据来源：OpenAI官方基准测试）