OpenAI放大招!1200亿参数模型免费用,但藏猫腻?
OpenAI 近期发布了两款开放权重的推理模型,旨在与 Meta 和 DeepSeek 等公司在该领域的快速发展相抗衡。值得注意的是,虽然这些模型标榜为“开放”,但其开放程度存在一定限制:开发者目前无法获取模型的源代码或训练数据。
这两款新型号被命名为 gpt-oss,拥有两种不同的参数规模:1200 亿参数版本和 200 亿参数版本。参数数量通常反映了模型在训练过程中学习到的统计关系,一般来说,参数越多,模型的能力就越强。
OpenAI 首席执行官 Sam Altman 在社交平台 X 上表示,他们相信这一模型是“世界上最好、最实用的开放模型”。
OpenAI 上一次发布开放模型还要追溯到 2019 年的 GPT-2。彼时,GPT-2 采取了完全开放的方式,真正实现了开源,尽管这一过程分阶段完成,历时数月。目前,OpenAI 尚未明确 gpt-oss 是否最终也会走上开源的道路。
Gpt-oss 是一种纯文本、开放权重的模型。这意味着用户可以自由地使用和微调该模型,但无法了解其具体的训练方式或所使用的数据。
新媒网跨境获悉,如果无法得知模型所使用的数据,企业就无法获得完全的透明度,这可能会给金融服务、医疗保健等受到严格监管的行业带来额外的风险。
例如,医疗保健公司可能希望在将模型应用于个人患者数据之前,对模型的训练过程进行全面审查。
有专业机构指出,如果仅仅是开放权重,开发者将缺乏有效评估模型偏见、局限性和社会影响的能力。
不过,OpenAI 依据 Apache 2.0 许可证授予用户访问权限。该许可证赋予用户“永久的、全球性的、非排他性的、免费的、免版税的、不可撤销的版权”,允许用户制作和分发该模型。
OpenAI 方面表示,这些开放模型降低了新兴市场、资源有限的行业以及预算或灵活性不足的小型组织的准入门槛,使它们也能采用先进的模型技术。
用户现在可以在 Hugging Face 平台上下载 GPT-OSS,或是在 GitHub 上查看相关信息。
人工智能模型领域的竞争
在开源人工智能模型领域,主要的竞争者包括 Meta 及其 Llama 系列模型(但其使用和分发受到一定的限制)、法国的 Mistral AI,以及中国的 DeepSeek 和阿里巴巴(其 Qwen 系列模型大部分是开源的)。
Altman 认为 gpt-oss 是一个“大事件”,它具有“强大的实际性能”,可以与 o4-mini 相媲美。(o 系列,即 omni 系列,是 OpenAI 推出的推理模型,是继 GPT 系列之后的一个新的模型家族。)
举例来说,在 MMLU 基准测试中,该测试旨在评估大型语言模型在广泛的学术和专业任务中的表现,gpt-oss 的性能与 OpenAI 的 o3 和 o4-mini 差距不大。
OpenAI 表示,拥有 1200 亿参数的 gpt-oss 模型可以在用户自己的计算机上运行,而较小的模型甚至可以在智能手机上运行。通常情况下,人工智能模型,尤其是大型模型,都是在云端运行的。
虽然发布开放模型意味着可能会被恶意行为者利用,但 Altman 表示,该公司认为“从中获得的益处将远远大于坏处”。这与 2019 年 OpenAI 分阶段发布 GPT-2 时的态度有所不同,当时他们担心该模型会被用于不正当的目的。
OpenAI 的其余模型都是封闭且具有专有性质的。其竞争对手发布了不同程度的开放模型:例如,谷歌拥有像 Gemma 这样开放权重的模型,但不是开源的。Anthropic 目前没有开放模型。微软已经开源了其 Phi 模型。亚马逊的模型则具有专有性质。
其他相关进展:
外媒报道,苹果人工智能团队正在研发 ChatGPT 的竞争对手。
OpenAI 获得了新的融资,估值达到 3000 亿美元。
微软正寻求扩大对 OpenAI 技术的访问权限。
新媒网跨境认为,OpenAI 此举表明了其在人工智能模型开源领域的积极探索,有望为行业带来新的发展机遇。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)