LLM推理性能狂飙4倍!新模型部署成本暴降!

2025-08-13人工智能

Image

近日,包括OpenAI的gpt-oss和Moonshot AI的Kimi K2在内的多个前沿开源模型相继涌现,预示着大型语言模型(LLM)创新浪潮的到来。为了更好地支持这些模型的大规模、低成本部署,Dynamo 0.4版本正式发布,重点提升性能、可观测性,并实现基于服务级别目标(SLO)的自动扩展。

Dynamo 0.4的主要亮点包括:

  • 借助NVIDIA Blackwell架构实现4倍性能提升
  • 提供GB200 NVL72和Hopper上的大规模专家并行部署指南
  • 新增预填充-解码(PD)配置工具,简化分离式部署
  • 通过Kubernetes集成实现基于SLO的PD自动扩展
  • 内置可观测性指标,用于实时性能监控
  • 增强弹性,支持飞行中请求重路由和早期故障检测

以下将详细介绍这些更新内容。

Dynamo 0.4如何通过分离式部署实现4倍的推理性能提升?

Dynamo 0.4版本为NVIDIA Blackwell带来了显著的分离式服务性能提升。在NVIDIA B200上,使用Dynamo和TensorRT-LLM运行新的OpenAI gpt-oss-120b模型,在不牺牲吞吐量的前提下,对于代理工作流、代码生成和摘要等常见的超长输入序列,交互性(tokens/second/user)提升高达4倍。此外,在NVIDIA GB200 NVL72上,使用Dynamo和TensorRT-LLM运行DeepSeek-R1 671B模型,在不增加推理成本的前提下,吞吐量(tokens/second/GPU)提升了2.5倍。
图片说明

图1. 分离式服务解决了预填充和解码之间的资源竞争问题,在相同的GPU预算下实现了显著的性能提升。注:结果不代表最大吞吐量或最低延迟性能。请查看此链接获取最新的推理性能。

这些性能提升得益于Dynamo中的分离式服务,它将模型推理的预填充和解码阶段分离到不同的GPU上。通过分离这些阶段,Dynamo能够根据每个阶段的特定需求灵活分配GPU资源和模型并行性,从而显著提高整体效率。

目前,相关脚本已经发布,以支持社区重现这些结果,并充分利用分离式服务架构的成本效益。

  • 在B200(8xGPU)上使用Dynamo和TensorRT-LLM部署OpenAI gpt-oss-120b
  • 在GB200(16xGPU)上使用Dynamo和TensorRT-LLM部署DeepSeek-R1 671B

为了让研究人员、工程师和组织能够探索使用分离式服务进行MoE模型服务的优势,还提供了全面的、逐步的部署指南,引导用户在多节点环境中使用Dynamo设置带有SGLang的DeepSeek-R1和带有TensorRT-LLM的Llama4 Maverick。

  • 在GB200 NVL72(56xGPU)上使用Dynamo和SGLang部署DeepSeek-R1
  • 在H100(104xGPU)上使用Dynamo和SGLang部署DeepSeek-R1
  • 在GB200 NVL72(16xGPU)上使用Dynamo和TRT-LLM部署Llama4 Maverick

如何消除设置分离式服务集群时的猜测?

新媒网跨境了解到,从采用分离式服务的推理团队那里了解到,他们面临的主要挑战之一是难以估计预期的吞吐量优势,并确定适合其特定部署的正确配置。具体来说,用户在选择分配给预填充和解码阶段的GPU数量,以及使用何种模型并行性来满足其目标SLO时遇到了困难。

为了解决这个问题,推出了AIConfigurator,这是一种用于推荐最佳PD分离配置和模型并行策略的新工具。它针对给定的模型和GPU预算量身定制,同时满足SLO。
图片说明

图2. AIConfigurator CLI仪表板的屏幕截图,可视化吞吐量与延迟之间的权衡以及分离的优势。它展示了在512-GPU集群上使用分离的Qwen3-32B模型在可比较的延迟水平下,吞吐量提高了2.36倍。

通过利用跨模型不同层(包括注意力、FFN、通信和内存)的丰富预测量性能数据,并对不同的调度技术(静态批处理、飞行中批处理和分离式服务)进行建模,AIConfigurator会建议在定义的GPU预算内满足用户定义的SLO并最大化每个GPU吞吐量的PD配置。然后,该工具将自动生成可以在Dynamo中无缝部署的后端配置。

AIConfigurator以CLI和Web界面的形式启动,并初步支持NVIDIA Hopper上的TensorRT-LLM。在即将发布的版本中,将支持其他推理框架和NVIDIA硬件。

如何在不过度或不足地配置GPU的情况下始终如一地满足推理SLO?

在5月份发布的0.2版本中,推出了第一个版本的Planner,这是一个专为生成AI推理和PD分离而构建的GPU自动扩展引擎。通过监控预填充队列和解码内存使用情况,Planner智能地扩展或缩小推理worker,以最大化GPU利用率并最小化推理成本。

在0.4版本中,Planner更进一步。引入了基于SLO的自动扩展,使推理团队不仅可以优化成本,还可以可靠地满足严格的性能目标,例如首次令牌时间(TTFT)和令牌间延迟(ITL)。

与传统的、被动的扩展系统不同,新的基于SLO的Planner采用前瞻性方法:

(1) 它利用预部署分析来了解部署在不同的模型并行和批处理配置下的行为。
(2) 它根据SLO建议最具成本效益的引擎配置。
(3) 它使用高级时间序列模型(如ARIMA或Prophet)预测未来的流量模式。
(4) 它计算在预测的需求下满足SLA目标所需的PD worker的最小数量。
(5) 它持续评估流量模式并动态重新调整PD worker以维持目标SLA。

Planner的独特之处在于它能够预测输入/输出序列长度变化的影响,并在出现瓶颈之前主动扩展资源。

基于SLO的Planner允许推理团队:

  • 控制用户体验和基础设施支出
  • 在不过度或不足地配置资源的情况下维持SLA性能
  • 在不进行手动调整的情况下优化GPU使用率

以下视频演示了Planner的实际操作:

视频2. 了解Dynamo Planner如何根据预测的传入请求模式动态自动扩展预填充和解码GPU。

Planner与Kubernetes原生集成,使已在容器化基础设施上标准化的组织可以轻松部署Dynamo并使用Planner来扩展其AI工作负载。此版本包括对vLLM的Planner支持,未来更新将支持其他推理框架。

如何跟踪实时推理可观测性指标?

可观测性在大型分布式推理环境中至关重要,它使工程团队能够监控系统运行状况、诊断性能瓶颈并满足严格的SLO,在这种环境中,必须实时持续优化延迟、吞吐量和GPU利用率。
图片说明

图3. Grafana仪表板显示了Dynamo收集的关键性能指标。

在此版本中,事件、控制和数据平面中的Dynamo worker和组件现在会发出关键的可观测性指标,包括:

  • 平均每秒请求数和请求持续时间
  • 平均首次令牌时间(TTFT)和令牌间延迟(ITL)
  • 平均输入和输出序列长度
  • GPU利用率和功耗

这些指标使用开源Prometheus工具包收集,并且可以在开源监控和可观测性工具(如Grafana)中轻松使用,而无需进行自定义开发。

此版本还包括一个API,供工程团队和解决方案架构师定义和发出针对其服务环境量身定制的自定义指标,从而提供更大的灵活性和可扩展性。

Dynamo 0.4中的这种可观测性基础为即将发布的版本奠定了基础,这些版本将引入更精细的、特定于用例的指标,包括PD分离。

Dynamo 0.4如何增强弹性和早期故障检测?

大规模部署前沿推理MoE模型需要可以跨越数百个GPU的多节点环境。在这些设置中,任何软件或硬件组件中的故障(无论多么短暂)都可能中断整个系统的运行,并导致延迟和用户请求失败——从而扰乱业务运营并损害客户体验。

Dynamo 0.4版本引入了容错和弹性功能,包括飞行中请求重路由。在以前的版本中,发送到离线GPU的请求将失败并弹回推理堆栈的更高层或弹回最终用户。这会触发重试,从而重复预处理步骤(如令牌化和嵌入),浪费计算并增加延迟。通过此更新,Dynamo现在可以重路由飞行中的请求,保留中间计算并将其直接转发到在线GPU,从而消除冗余工作。
图片说明

图4. 该图说明了在生成过程中,没有(顶部)和有(底部)飞行中请求重路由的系统之间的工作流差异。

此外,此版本还引入了更快的故障检测。在以前的版本中,etcd(Dynamo控制平面的关键组件)负责检测离线worker并在整个系统中广播该状态。但是,这增加了几秒钟的延迟,在此期间,请求仍可能路由到离线worker。

新版本在Dynamo智能路由器中引入了早期故障检测,使其可以绕过etcd并对关键运行状况信号做出反应。这减少了检测到恢复的窗口,并大大减少了失败的请求。

回到基础:当向LLM提问时会发生什么?

如果想回顾NVIDIA Dynamo中分离式服务的基础知识,可以从提问LLM时发生的事情开始——这个过程称为推理,它涵盖了从预填充到解码和令牌预测的所有内容。在这个视频中,将详细介绍它的工作原理、它的演变方式以及NVIDIA Dynamo如何加速每个阶段。了解分离式服务如何将这些步骤拆分到多个GPU上,以实现更快、更高效的AI响应。

视频2. 了解LLM推理的不同阶段,以及使用Dynamo在不同GPU上分离这些阶段如何提高性能。

如何参与?

非常高兴在开发者社区的帮助下不断改进Dynamo。可以观看过去的Office Hours录像,并收听即将举行的Office Hours,以直接获得团队解答的问题。

加入Discord社区以与其他开发者联系、分享反馈并获得实时支持。如果对未来的发展方向感到兴奋,请查看开源存储库,欢迎社区的贡献、问题和想法。

新媒网跨境认为,Dynamo 0.4的发布,无疑为大模型推理带来了新的可能性。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/14443.html

评论(0)

暂无评论,快来抢沙发~
Dynamo 0.4版本发布,重点提升LLM模型推理性能和可观测性。新版本利用NVIDIA Blackwell架构,通过分离预填充和解码阶段,实现高达4倍的性能提升。同时,Dynamo 0.4还提供基于SLO的自动扩展,并增强了弹性和早期故障检测。
发布于 2025-08-13
查看人数 1468
汇率走势
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。