NVIDIA新技术！AI推理性能飙升35倍

NVIDIA Groq 3 LPX：AI低延迟推理加速器突破性能极限

背景介绍

随着人工智能技术的发展，全球范围内对实时响应、高性能计算需求的脚步从未停止。特别是在复杂推理系统和巨量数据处理领域，如何实现低延迟、高效处理成为行业关注焦点。2026年，NVIDIA正式推出了Groq 3 LPX，这一专为低延迟设计的推理加速器，结合其Vera Rubin平台，将人工智能性能提升至新高度，为交互式应用与推理推送创造了新的可能性。

NVIDIA Groq 3 LPX系统概述

NVIDIA Groq 3 LPX是专为处理高复杂度上下文需求与实时响应设计的设备，搭配NVIDIA Vera Rubin NVL72平台，优化了推理工厂的高效性。这种体系为人工智能模型的快速响应和稳定的算子生成赋予了巨大的技术支持。

在架构设计层面，它强调多层异构性，既满足高性能需求，又保障低延迟数据处理。这种组合不仅提升了交互AI系统的响应速率，还优化了数据协作，推动了群体智慧的应用。

核心数据分析

提升推理效率：每兆瓦推理吞吐量提高35倍。
创造商业潜力：模型收入潜力增幅高达10倍（基于万亿参数模型）。
架构负载：系统集成256个独立的加速芯片，注重执行稳定性与片上SRAM数据流速的提升。
整体性能概览：
- AI推理计算：315 PFLOPS
- 总SRAM容量：128 GB
- 片内SRAM带宽：40 PB/s
- 扩展芯片数量：256
- 扩展带宽：640 TB/s

计算托盘内部探索

NVIDIA Groq 3 LPX以32个液冷设计的1U计算托盘构成一个完整机架，每个托盘无需复杂的连接件以简化部署，同时优化了运行效率。

托盘规格细节

独立芯片配置：每托盘包含8枚LP30芯片。
片内计算存储：确保高容量储能，4 GB片上SRAM。
存储带宽优化：片上带宽达1.2 PB/s，支持扩展至最大256 GB外部存储（DRAM）。
AI推理计算力：FP8浮点计算达9.6 PFLOPS。
扩展连接速率：托盘间支持多达20 TB/s高带宽扩展。

NVIDIA Groq 3 LPU架构特点

LPX的核心是NVIDIA Groq 3 LPU，其架构设计显著增强了快速响应与稳定推理的能力，通过计算、存储与通信的深度整合实现性能突破。

系统重点特性

向量优化计算设计：采用固定大小320字节向量，简化调度并支持复杂矩阵运算。
片上存储单元MEM Block：配备500 MB高速SRAM，有效降低数据处理延迟。
芯片间通信（C2C）拓展性：单芯片内含96条高速链接，合计带宽达2.5 TB/s，提升多节点分布式推理效率。
确定性执行模型：将计算、内存与通信安排明确化，确保在复杂负载下稳定响应。

解码优化与动态协作功能

解码阶段的核心依托异构系统中NVIDIA Dynamo的调度功能。它协调GPU与LPX组合，在解码环节中分别快速处理较大上下文的注意力计算与较小上下文的高敏感区域推断，确保终端响应的灵活性与持续性。特性包括：

数据缓存的快速路由机制。
临时数据的低延迟激活处理。
依负载程度动态执行。

推断相结合的解码环节

解码环节通过两种引擎协作完成：

GPU完成复杂KV数据的大范围关注角度分析。
LPX优化特定细节区域的快速响应推断，包括高效生成模型结果。

预推断加速

预推断利用LPX生成预测性结果，由GPU进行验证，确保整体性能在降低延迟的同时保持可靠性。这一技术显著缩短了推理周期，提升模型运行效率。

实现响应式智能平台

通过NVIDIA Groq 3 LPX与Vera Rubin平台的高效协作，人工智能服务逐渐释放更多潜能，适应以下需求：

对高交互性应用场景支持。
长上下文数据推理能力的提升。
大规模并发用户服务的优化。

面向未来的综合价值扩展

结合性能与成本效率，LPX架构表现出卓越性能提升：

在用户响应需求与功耗效率之间平衡最优化，实现TPS/用户响应显著提升。
吞吐量大幅升级与经济效益提升：例如，Vera Rubin与LPX系统对比传统架构可以带来35倍效率提升，并显著提升高互动业务收入潜力。

结语

NVIDIA Groq 3 LPX的出现，引领了效率与响应并存的新发展方向，为大型AI平台提供了多样支持。这种低延迟推理加速技术，为自主协同应用、实时工具与高性能交互提供了重要保障。未来，关注此类性能革新技术将为中国跨境行业从业者带来更多发展机遇。
Rubin GPU vs Groq 3 LPU对比图