英伟达开源AI性能暴涨6倍!跨境掘金术

2025-08-23AI工具

Image

全球跨境领域,人工智能(AI)的浪潮正以前所未有的速度席卷各个行业,而开源AI模型正是这场技术革新的基石。Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、Qwen等一系列开源AI模型,通过免费提供模型权重、架构及训练方法,正逐步推动AI技术的普及化发展。这使得全球的研究人员、初创企业乃至各类组织,都能在无需从零开始的情况下,学习并应用专家混合(MoE)、新型注意力核以及推理后训练等前沿技术。新媒网跨境获悉,英伟达(NVIDIA)正通过其广泛可用的系统及专为加速AI设计的开源软件,将AI的普及从云端和数据中心延伸至桌面和边缘设备,进一步放大这一趋势的影响力。
cloud-ai-model-graphic-1-1024x576-png.webp

英伟达Blackwell架构与NVFP4如何加速大规模AI应用

支撑大规模AI加速的核心,是英伟达专为AI打造的Blackwell GPU架构。这款AI超级芯片集成了第五代Tensor Cores(张量核心)和一种名为NVFP4(4位浮点)的新型数值格式,旨在以高精度提供强大的计算性能。Blackwell架构还集成了英伟达NVLink-72新一代高带宽互连技术,为应对高要求的AI工作负载,提供了超高速的GPU间通信能力,并支持在多GPU配置下进行扩展。此外,Blackwell GPU还内置了第二代Transformer Engines(Transformer引擎)以及NVLink Fusion技术,这些硬件层面的创新共同构筑了AI计算的坚实基础。

开源工具如何推动AI创新规模化发展

要真正加速AI的发展,仅有强大的硬件和开源AI模型是不足够的。这还需要一个经过优化且快速演进的软件栈,以确保当下复杂的AI工作负载能够实现最佳性能。英伟达正通过发布开源工具、模型和数据集,推动前沿AI能力的普及,赋能开发者在系统层面进行创新。新媒网跨境了解到,目前英伟达在其GitHub仓库中提供了超过1000种开源工具,而在Hugging Face平台上,英伟达的集合中也包含了超过450个模型和80个数据集。

英伟达在开源方面的全面布局,覆盖了其整个软件栈,从基础数据处理工具到完整的AI开发与部署框架。英伟达发布了多个开源的CUDA-X库,这些库能够加速整个互联工具生态系统,确保开发者可以充分利用Blackwell等尖端硬件上的开源AI潜力。

开源AI工具开发流程解析

开源AI工具的开发流程始于数据准备和分析阶段。RAPIDS作为一个开源的GPU加速Python库套件,专门用于加速数据准备和ETL(提取、转换、加载)流程,这些流程直接为模型训练提供数据。RAPIDS确保AI工作负载能够在GPU上端到端运行,从而消除了昂贵的CPU瓶颈,并实现了更快的训练和推理速度。

在数据管道加速之后,下一步是模型训练。英伟达NeMo框架是一个针对大型语言模型(LLM)、多模态模型和语音模型的端到端训练框架。它支持将预训练和后训练工作负载从单个GPU无缝扩展到数千个节点的集群,适用于Hugging Face/PyTorch和Megatron模型。

英伟达PhysicsNeMo是一个用于物理信息机器学习(Physics-ML)的框架,它使研究人员和工程师能够将物理定律整合到神经网络中,从而加速数字孪生体的开发和科学模拟。英伟达BioNeMo则将生成式AI引入生命科学领域,提供预训练模型作为加速的英伟达NIM微服务,以及用于蛋白质结构预测、分子设计和药物发现的工具,赋能研究人员加速生物学和医疗领域的突破。

这些框架都利用了NCCL,一个用于多GPU和多节点集体通信的开源CUDA-X库。英伟达NeMo、PhysicsNeMo和BioNeMo通过高级生成功能扩展了PyTorch,使开发者能够构建、定制和部署超越标准深度学习工作流程的强大生成式AI应用程序。模型训练完成后,开发者需要高效地提供服务。英伟达TensorRT推理栈,包括TensorRT-LLM和TensorRT Model Optimizer,为大规模部署模型提供了优化的核和量化工具。TensorRT-LLM利用Blackwell的新指令和FP4格式进一步提升性能,从而在大型模型上实现更快、更节省内存的推理。

实现自定义解决方案的内核开发者可以使用CUTLASS,这是一个开源的CUDA C++模板集合。CUTLASS简化了高性能GPU内核的编写,特别是对于深度学习的核心操作——矩阵乘法(GEMM)。英伟达Dynamo则帮助高效地为大规模用户提供服务。这个开源的、与框架无关的推理服务平台支持PyTorch、TensorRT-LLM、vLLM和SGLang。Dynamo旨在通过分解推理的不同阶段并使用智能的LLM感知调度来扩展推理AI,从而最大化AI工厂的令牌吞吐量。

Dynamo还包括NIXL,一个针对AI推理环境中数据移动进行优化的开源高吞吐量、低延迟通信库。2025年5月公布的Dynamo 0.4与TensorRT-LLM的最新测试结果令人瞩目。对于长输入序列长度,它在英伟达B200 Blackwell GPU上为OpenAI GPT-OSS 120B模型提供了高达4倍的交互速度提升,且未牺牲吞吐量。对于英伟达GB200 NVL72上的DeepSeek-R1 671B模型,它在不增加推理成本的情况下,实现了每GPU 2.5倍更高的吞吐量。

开源模型与数据集

框架只是故事的一半,开发者还需要开放的模型和数据集来进行实验、微调和大规模部署。因此,英伟达通过日益增长的开放模型和数据集库来补充其开源工具。在Hugging Face上,英伟达已经发布了数百个涵盖语言、视觉、多模态和机器人领域的模型和数据集。这其中包括:

  1. 英伟达Nemotron系列:专为代理型AI设计的完全开放模型,提供了卓越的推理准确性和性能效率。
  2. 物理AI的基础模型和推理模型,例如英伟达Cosmos。

这些模型采用了包括英伟达开放模型许可证在内的宽松许可,以鼓励广泛采用和创新。总体而言,英伟达的开源项目和模型已融入数百万开发者的工作流程中,涵盖从学术研究到云服务等领域,极大地增强了Blackwell GPU的影响力。英伟达Nemotron是一款具备推理能力的LLM系列,旨在实现最高的准确性和性能。这些开放模型设计用于高效推理和微调。通过剪枝和混合架构等技术,它们的吞吐量比其他领先的开放模型高出6倍。它们通过蒸馏、SFT(监督微调)和强化学习等技术,利用高质量的、英伟达构建和策展的开放训练数据集进行调优,从而在推理和代理任务中实现最佳准确性。这些模型以NIM推理微服务的形式打包,可以轻松部署在任何GPU加速系统上,从桌面到数据中心。这使得企业能够试验多步推理模型,并高效地对其进行微调以适应自定义应用程序。

英伟达还发布了多模态模型,如Isaac GR00T N1.5,这是一个开放的、可定制的、用于人形机器人的视觉语言动作(VLA)模型,使机器人能够进行推理和理解。此外,还有嵌入模型、分词器等。其中许多模型已经预量化为NVFP4格式,并且所有模型都以宽松的许可分发。然而,AI不仅限于文本或图像,开发者希望能够模拟、推理并与物理世界进行交互。英伟达正积极推动物理AI的发展,这种AI能够感知和交互物理世界(例如,机器人、自动驾驶车辆和智能基础设施)。这一愿景的关键部分是英伟达Cosmos,一个用于世界生成和理解的生成模型和工具套件,旨在加速物理AI模型的开发。Cosmos包含三个核心模型:预测(Predict)、转换(Transfer)和推理(Reason)。它还包括分词器和数据处理管道,所有这些都已在开放模型许可下发布,供开发者下载和调整。

这些模拟和推理框架通过英伟达Omniverse SDK和库得到了进一步增强,这些SDK和库使用开源的Universal Scene Description(OpenUSD)进行数据聚合和场景组装。英伟达贡献了实时RTX渲染扩展和物理模式,使开发者能够为工业和机器人模拟用例构建物理AI应用程序。这些技术共同建立了一个全面的“模拟到现实”管道,用于训练在真实世界环境中运行的AI系统。从加速原始数据处理的RAPIDS到像Cosmos和Nemotron这样的开放模型,英伟达的开放生态系统覆盖了整个AI生命周期。通过在每个阶段整合开放工具、模型和框架,开发者可以在Blackwell硬件上从原型阶段无缝过渡到生产阶段,且无需离开开放源代码生态系统。

如何开始使用英伟达开放AI生态系统

英伟达的AI软件栈已在全球为数百万开发者的工作流程提供支持,涵盖从学术研究实验室到财富500强企业。它赋能团队充分发挥Blackwell等尖端GPU的潜力。通过将NVFP4精度、第二代Transformer Engines和NVLink Fusion等突破性的硬件创新,与无与伦比的开源框架、预训练模型和优化库相结合,英伟达确保AI创新能够从原型到生产无缝扩展。而最重要的是,开发者现在就可以开始尝试。可以探索GitHub上的开源项目,访问Hugging Face上的数百个模型和数据集,或者深入了解英伟达的开源项目目录。无论是在构建LLM、生成式AI、机器人还是优化管道,这个生态系统都已开放,并为下一个突破做好准备。

关于英伟达对开源的贡献:

英伟达是Linux内核、Python、PyTorch、Kubernetes、JAX和ROS等主要项目的积极贡献者。此外,英伟达通过向Linux基金会、PyTorch基金会、Python软件基金会、云原生计算基金会、开源机器人联盟和开放USD联盟等基金会贡献力量,增强了开源生态系统。除了这些大型组织,英伟达还通过其自由和开源软件(FOSS)基金等倡议,投资于小型社区。许多英伟达工程师在全球领先的开源生态系统中担任核心开发者和维护者,帮助维护推动全球AI创新的项目。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/17972.html

评论(0)

暂无评论,快来抢沙发~
英伟达正通过开源AI模型和工具,结合其Blackwell架构及NVFP4等技术,加速全球AI创新。开源工具覆盖数据处理、模型训练和推理,配合Nemo、Cosmos等框架,开发者可在Blackwell硬件上实现AI应用从原型到生产的无缝过渡。NVIDIA积极贡献开源社区,赋能开发者。
发布于 2025-08-23
查看人数 1216
人民币汇率走势
CNY
推荐文章
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。