NVIDIA联手OpenAI!150万TPS推理性能,AI算力暴涨,跨境掘金新风口?
2025年第二季度,全球AI算力领域迎来重要技术突破。美国芯片制造商英伟达(NVIDIA)与人工智能研究机构OpenAI联合宣布,其最新开源大语言模型gpt-oss-20b和gpt-oss-120b在NVIDIA Blackwell架构上实现150万token/秒(TPS)的推理性能。新媒网跨境获悉,这一成果标志着AI模型从云端到边缘设备的全场景部署能力取得实质性进展。
技术架构深度解析
两款模型采用混合专家(MoE)架构,其中gpt-oss-120b包含1170亿参数,激活参数达51亿/Token,配备128位专家系统。值得注意的是,模型采用FP4精度格式,可直接部署在80GB显存的单颗数据中心GPU上。训练环节显示,gpt-oss-120b消耗了210万小时的NVIDIA H100 Tensor Core GPU算力资源,其训练成本约为gpt-oss-20b的10倍。
模型名称 | 参数量级 | 激活参数/Token | 专家系统数量 | 上下文长度 |
---|---|---|---|---|
gpt-oss-20b | 200亿 | 36亿 | 32 | 128K |
gpt-oss-120b | 1170亿 | 51亿 | 128 | 128K |
跨平台部署方案
新媒网跨境了解到,英伟达为开发者提供多套部署工具链:
- 通过vLLM框架可快速搭建OpenAI兼容的API服务,支持Python依赖管理工具uv快速启动
- TensorRT-LLM GitHub仓库提供Docker容器化部署指南,涵盖低延迟与高吞吐量场景配置
- 企业级用户可通过NVIDIA NIM微服务实现安全部署,目前提供免费API预览服务
硬件性能突破
在Blackwell GB200 NVL72系统上,72颗GPU通过第五代NVLink互联形成统一算力池。实测数据显示,单机架可支持1200亿参数模型同时处理50,000用户请求。第二代Transformer引擎与FP4张量核心的协同设计,使系统能效比显著提升。
边缘计算新进展
针对本地化部署需求,gpt-oss-20b可运行在显存16GB以上的NVIDIA GeForce RTX AI PC。开发者可通过Ollama、Llama.cpp等工具链实现本地推理,微软AI Foundry Local套件也已完成适配。专业工作站用户则能利用RTX PRO GPU实现MXFP4精度原生支持。
目前,相关技术文档已登陆NVIDIA开发者门户,包含完整的API目录和OpenAI Cookbook实践指南。新媒网跨境注意到,此次合作延续了双方自2016年DGX系统发布以来的技术协同传统,为AI基础设施领域树立了新的性能基准。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)