NVIDIA:Mistral 3大模型性能狂飙10倍,AI新突破!

2025-12-03AI工具

NVIDIA:Mistral 3大模型性能狂飙10倍,AI新突破!

NVIDIA携手Mistral AI,正式发布了备受瞩目的Mistral 3开放模型家族,旨在为全球开发者和企业提供兼具行业领先精度、卓越效率及高度定制能力的AI解决方案。新媒网跨境获悉,这一模型家族在NVIDIA的强劲硬件平台与优化软件栈支持下,从强大的NVIDIA GB200 NVL72系统到各类边缘设备,均实现了深度优化部署。

Mistral 3模型家族的核心亮点在于其多元化的构成。其中包括一个先进的大型稀疏多模态、多语言专家混合模型(MoE),其总参数量高达6750亿。此外,该家族还推出了一系列名为Ministral 3的小型、高密度高性能模型,涵盖30亿、80亿和140亿三种参数规模,每种规模又细分为基础版、指令遵循版(Instruct)和推理优化版(Reasoning),共计九款模型。这些模型均基于NVIDIA Hopper GPU进行训练,并已通过Mistral AI在Hugging Face平台开放。开发者可根据自身需求,在不同的NVIDIA GPU上,以多种模型精度格式及开源框架兼容性选项进行灵活部署。
Line chart titled “Performance per MW on Mistral Large 3 NVFP4 ISL/OSL 1K/8K.” The x-axis shows TPS per user (interactivity) from 0 to about 150, and the y-axis shows TPS per megawatt from 0 to 7,000,000. A green line labeled GB200 starts high on the left (around 5,000,000 TPS/MW at roughly 40 TPS/user) and slopes downward as interactivity increases. A gray line labeled H200 follows the same general shape but is consistently much lower, starting near 2,000,000 TPS/MW around 15 TPS/user and dropping to the right. The graphic illustrates that GB200 delivers substantially higher energy efficiency than H200 across the full interactivity range.
图1:Mistral Large 3每兆瓦性能,对比NVIDIA GB200 NVL72与NVIDIA H200在不同交互性目标下的表现

NVIDIA加速下的Mistral Large 3:GB200 NVL72性能新标杆

在NVIDIA GB200 NVL72系统上,经NVIDIA加速的Mistral Large 3模型展现出卓越的性能表现,这得益于一套专为大型专家混合模型(MoE)定制的综合优化堆栈。图1清晰展示了GB200 NVL72与NVIDIA H200在不同交互性范围内的性能帕累托前沿曲线。

对于追求优秀用户体验和成本效益的企业级AI系统而言,GB200平台较上一代H200提供了高达10倍的性能提升。在每用户每秒40个Token的交互负载下,其每兆瓦可处理超过500万个Token。这种代际性的飞跃意味着新的Mistral Large 3模型能够提供更好的用户体验,显著降低每Token成本,并大幅提高能源效率。

此次性能跃升主要由以下推理优化组件驱动:

  1. NVIDIA TensorRT-LLM的Wide Expert Parallelism(Wide-EP):该技术提供了优化的MoE GroupGEMM内核、专家分布与负载均衡,以及专家调度功能,充分利用了NVL72连贯内存域的优势。值得注意的是,Wide-EP功能集对于大型MoE模型架构变化具有很强的弹性。例如,Mistral Large 3虽然每层专家数量(128个)约为DeepSeek-R1的一半,但仍能充分发挥NVIDIA NVLink高速互连架构的高带宽、低延迟、无阻塞优势。
  2. NVFP4低精度推理:在保持效率和精度的前提下,Mistral Large 3实现了NVFP4低精度推理。这得到了SGLang、TensorRT-LLM和vLLM等框架的全面支持。NVFP4通过利用更高精度的FP8缩放因子和更细粒度的块缩放来控制量化误差,从而有效降低计算和内存成本,同时确保模型准确性不受显著影响。
  3. NVIDIA Dynamo低延迟分布式推理框架:Mistral Large 3还借助了NVIDIA Dynamo框架,实现推理预填充和解码阶段的速率匹配与解耦。此举显著提升了长上下文工作负载的性能,尤其是在8K/1K配置下,其效果如图1所示。
  4. 持续的性能优化:如同所有模型一样,未来的性能优化(例如采用多Token预测(MTP)和EAGLE-3的推测解码技术)预计将进一步提升性能,为新模型带来更多益处。

NVFP4量化技术详解

针对Mistral Large 3,开发者可以部署经过计算优化的NVFP4检查点。这一检查点通过开源的llm-compressor库进行离线量化,从而在保持高精度的同时,有效降低计算和内存成本。其实现机制在于利用NVFP4更高精度的FP8缩放因子和更细粒度的块缩放,以精确控制量化误差。

该量化方案仅针对MoE模型的权重进行处理,而将所有其他组件保持在原始检查点的精度。由于NVFP4是Blackwell架构的原生特性,因此该变体可以无缝部署在GB200 NVL72系统上。NVFP4的FP8-scale因子和细粒度块缩放技术能够有效降低量化误差,从而在保持极低精度损失的前提下,实现更低的计算和内存开销。

开放的推理生态:多框架支持

这些开放权重模型可以与开发者选择的任何开源推理框架一同使用。TensorRT-LLM利用针对大型MoE模型的优化技术,可在GB200 NVL72系统上显著提升性能。开发者可以借助预配置的TensorRT-LLM Docker容器快速启动。

NVIDIA与vLLM也展开了深度合作,扩展了对内核集成、推测解码(EAGLE)、NVIDIA Blackwell架构以及解耦和并行化的支持。开发者可以查阅vLLM官方文档,或直接在NVIDIA云GPU上部署可启动实例。新媒网跨境了解到,vLLM平台还提供了运行Mistral Large 3 675B Instruct模型的样板代码和常见用例的API调用示例。图2展示了NVIDIA构建平台提供的各类GPU选项,开发者可以根据具体需求选择合适的GPU尺寸和配置来部署Mistral Large 3和Ministral 3。
The image shows the console at brev.dev which allows users to select which type of GPU option in the ‘Select your Compute’ page, the user can select between boxes in a row of H200, H100, A100, L40s, A10 and A100 shown.
图2:NVIDIA构建平台上提供了多种GPU选项,供开发者部署Mistral Large 3和Ministral 3

此外,NVIDIA还与SGLang合作,共同开发了Mistral Large 3的实现,该实现集成了解耦和推测解码功能。详细信息可参考SGLang官方文档。

Ministral 3模型:边缘部署的速度、多功能性与精度典范

Ministral 3系列小型、高密度高性能模型专为边缘部署设计。为满足多样化需求,该系列提供了30亿、80亿和140亿三种参数规模,每种规模均包含基础版、指令遵循版和推理优化版。开发者可以在NVIDIA GeForce RTX AI PC、NVIDIA DGX Spark以及NVIDIA Jetson等边缘平台对这些模型进行试用。

即使在本地开发环境中,开发者也能享受到NVIDIA加速带来的优势。NVIDIA与Ollama和llama.cpp进行了合作,以实现更快的迭代、更低的延迟和更高的数据隐私保护。例如,在使用NVIDIA RTX 5090 GPU时,Ministral-3B变体预计能达到高达每秒385个Token的快速推理速度。开发者可以通过Llama.cpp和Ollama开始体验。

对于Jetson平台的开发者,在NVIDIA Jetson Thor上使用vLLM容器,可以在单并发模式下实现每秒52个Token的速度,并在8并发模式下扩展至每秒273个Token。

NVIDIA NIM生产就绪型部署方案

Mistral Large 3和Ministral-14B-Instruct模型已通过NVIDIA API目录和预览API开放使用,开发者仅需最少配置即可开始体验。未来,企业级开发者将能通过可下载的NVIDIA NIM微服务,在任何GPU加速基础设施上实现便捷部署。

赋能开源AI构建生态

Mistral 3家族的发布,标志着跨大西洋AI开源社区迈出了重要一步。这些模型为开发者提供了从大规模MoE到边缘友好型密集Transformer的灵活选择,能够满足其在开发生命周期中的各项需求。

凭借NVIDIA优化的卓越性能、NVFP4等先进量化技术以及广泛的框架支持,开发者可以从云端到边缘实现出色的效率和可扩展性。开发者可以从Hugging Face下载Mistral 3模型,或在build.nvidia.com/mistralai上进行免部署测试。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-mistral-3-10x-perf-ai-breakthrough.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA与Mistral AI合作发布Mistral 3开放模型家族,包含大型稀疏MoE模型和Ministral 3系列小型高性能模型。这些模型针对NVIDIA硬件平台进行了优化,特别是在GB200 NVL72上,Mistral Large 3展现出卓越性能,得益于Wide-EP、NVFP4及NVIDIA Dynamo等技术。Ministral 3系列则专注于边缘部署,提供多种参数规模选择。
发布于 2025-12-03
查看人数 202
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。