英伟达Dynamo+AWS降本40%,推理效率飙升3倍!

2025-07-16AI工具

Image

在人工智能领域,优化大规模模型推理效率始终是开发者关注的焦点。新媒网跨境获悉,英伟达近日宣布其开源推理服务框架Dynamo正式扩展对亚马逊云科技(AWS)核心服务的支持能力,为开发者提供了更具成本效益的分布式推理解决方案。
Dynamo架构示意图

这项更新意味着使用英伟达GPU加速型Amazon EC2实例(包括搭载Blackwell架构的EC2 P6实例)的开发者,现在可便捷整合Amazon Simple Storage Service(S3)对象存储服务。此前,Dynamo已实现对Amazon Elastic Kubernetes Service(EKS)和AWS Elastic Fabric Adapter(EFA)的支持。这套组合方案显著提升了大型语言模型(LLM)在生产环境中的性能表现与资源利用率。

关键技术实现突破
Dynamo作为专为分布式环境设计的框架,兼容PyTorch、SGLang等主流推理引擎。其核心创新在于三项关键技术:通过预填充与解码阶段分离部署提升吞吐效率;采用智能路由机制提高键值缓存命中率;建立分级存储体系实现键值缓存动态调度。这些特性共同构成了高性价比推理服务的技术基石。

深度集成AWS生态
新媒网跨境了解到,此次升级为AWS开发者带来三重便利:

在存储层面,S3服务的接入解决了键值缓存膨胀难题。随着AI任务复杂度提升,传统GPU内存难以承载持续增长的缓存数据。现在开发者通过标准接口即可将键值缓存卸载至S3云存储,释放出宝贵的GPU显存资源。这种设计既避免了定制化开发的繁琐,又将推理成本降低了约40%。

在容器管理方面,Dynamo与Amazon EKS的深度整合简化了Kubernetes集群部署。当面对突发流量时,系统可自动扩展Dynamo实例应对负载高峰。开发者不再需要手动配置复杂的路由策略和缓存调度模块,运维效率提升显著。
AWS部署架构图

网络优化环节同样取得重要进展。通过适配AWS弹性适配器(EFA),Dynamo实现了节点间毫秒级数据传输。这对采用稀疏专家混合架构(MoE)的模型尤为关键。当模型参数分布在多个GPU节点时,NIXL传输库提供的标准化指令集(get/push/delete)确保了跨节点缓存调度的流畅性,使复杂架构的部署周期缩短60%。

Blackwell架构释放潜能
值得关注的是,当Dynamo运行在搭载Blackwell芯片的Amazon EC2 P6实例时,能效优势更为突出。新媒网跨境注意到,在测试DeepSeek R1、Llama 4等复杂推理任务时,该组合展现出突破性表现:

新一代P6-B200实例的第五代Tensor核心提供5倍于前代的AI算力,FP4精度加速与双倍NVLink带宽为模型解码提供了硬件保障。而采用GB200 NVL72芯片的P6e-GB200超算节点,凭借130TB/s的全互联带宽,完美适配专家并行架构的通信需求。Dynamo的智能调度系统与硬件优势形成互补,使单美元请求处理量提升3倍以上。

开发者快速启航指南
目前该解决方案已覆盖所有英伟达GPU加速的AWS实例。开发者可通过GitHub获取开源代码,在现有EKS集群中快速部署Dynamo服务。技术团队建议从中小规模模型入手测试键值缓存卸载功能,逐步扩展到千亿参数级别的生产环境。随着人工智能应用场景的持续深化,此类软硬协同的创新方案将为产业升级注入持续动能。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/5078.html

评论(0)

暂无评论,快来抢沙发~
英伟达开源推理框架Dynamo扩展对AWS核心服务的支持,通过S3存储集成、EKS容器管理和EFA网络优化,显著提升大语言模型推理效率,特别适配Blackwell架构GPU实例,实现成本降低与性能突破。
发布于 2025-07-16
查看人数 1350
人民币汇率走势
CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。