NVIDIA联手OpenAI!150万TPS推理性能,AI算力暴涨,跨境掘金新风口?

2025-08-06边缘AI芯片

Image

2025年第二季度,全球AI算力领域迎来重要技术突破。美国芯片制造商英伟达(NVIDIA)与人工智能研究机构OpenAI联合宣布,其最新开源大语言模型gpt-oss-20b和gpt-oss-120b在NVIDIA Blackwell架构上实现150万token/秒(TPS)的推理性能。新媒网跨境获悉,这一成果标志着AI模型从云端到边缘设备的全场景部署能力取得实质性进展。
Open AI and NVIDIA logos.

技术架构深度解析
两款模型采用混合专家(MoE)架构,其中gpt-oss-120b包含1170亿参数,激活参数达51亿/Token,配备128位专家系统。值得注意的是,模型采用FP4精度格式,可直接部署在80GB显存的单颗数据中心GPU上。训练环节显示,gpt-oss-120b消耗了210万小时的NVIDIA H100 Tensor Core GPU算力资源,其训练成本约为gpt-oss-20b的10倍。

模型名称 参数量级 激活参数/Token 专家系统数量 上下文长度
gpt-oss-20b 200亿 36亿 32 128K
gpt-oss-120b 1170亿 51亿 128 128K

跨平台部署方案
新媒网跨境了解到,英伟达为开发者提供多套部署工具链:

  • 通过vLLM框架可快速搭建OpenAI兼容的API服务,支持Python依赖管理工具uv快速启动
  • TensorRT-LLM GitHub仓库提供Docker容器化部署指南,涵盖低延迟与高吞吐量场景配置
  • 企业级用户可通过NVIDIA NIM微服务实现安全部署,目前提供免费API预览服务

硬件性能突破
在Blackwell GB200 NVL72系统上,72颗GPU通过第五代NVLink互联形成统一算力池。实测数据显示,单机架可支持1200亿参数模型同时处理50,000用户请求。第二代Transformer引擎与FP4张量核心的协同设计,使系统能效比显著提升。
The range of GPUs available in the NVIDIA build platform

边缘计算新进展
针对本地化部署需求,gpt-oss-20b可运行在显存16GB以上的NVIDIA GeForce RTX AI PC。开发者可通过Ollama、Llama.cpp等工具链实现本地推理,微软AI Foundry Local套件也已完成适配。专业工作站用户则能利用RTX PRO GPU实现MXFP4精度原生支持。
Steps for installing and running a model using Ollama

目前,相关技术文档已登陆NVIDIA开发者门户,包含完整的API目录和OpenAI Cookbook实践指南。新媒网跨境注意到,此次合作延续了双方自2016年DGX系统发布以来的技术协同传统,为AI基础设施领域树立了新的性能基准。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/10718.html

评论(0)

暂无评论,快来抢沙发~
NVIDIA与OpenAI合作发布GPT-OSS系列开源大语言模型,在Blackwell架构上实现高性能推理。该模型支持云端到边缘设备部署,采用混合专家架构和FP4精度,可在单颗数据中心GPU或RTX AI PC上运行。英伟达提供多种部署工具链,助力开发者快速搭建API服务和容器化部署。
发布于 2025-08-06
查看人数 447
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。