ExecuTorch模型部署指南:25分钟极速运行LLM

2026-05-19人工智能

ExecuTorch模型部署指南:25分钟极速运行LLM

在近几年的跨境科技发展中,围绕Mac设备性能优化的热点频频涌现,其中,基于Apple Silicon芯片的GPU模型运行逐步被跨境从业者认知与关注。本期新媒网跨境将深入解析ExecuTorch MLX Delegate工具的应用,助力大家提升在苹果设备上的深度学习模型部署效率,同时为大家带来实用的操作指南。
简介图片

近年来,Apple Silicon成为本地运行大语言模型的热门平台。在此前,macOS系统上的ExecuTorch用户大多只能利用CPU后端(如XNNPACK)进行模型推理。但现在,全新的MLX Delegate工具问世了,它能够通过苹果的MLX框架,在其GPU上实现全面优化的推理操作。今天,我们就来聊聊这个工具的用武之地,并手把手教你如何操作。

需要提醒的是,目前MLX Delegate依然处于实验阶段,部分功能模块或接口可能随时发生变动,建议关注其最新动态。


什么是MLX Delegate?

MLX Delegate是ExecuTorch在Apple Silicon上的一款全新后端工具。它的主要功能是将PyTorch模型编译并运行在Apple Silicon GPU上,实现高效的硬件加速推理。

具体来说,你只需通过标准的ExecuTorch模型导出流程:

  1. 使用 torch.export 导出模型;
  2. 结合 MLXPartitioner 函数,调用 to_edge_transform_and_lower 进行模型结构优化;
  3. 通过ExecuTorch运行导出的 .pte 文件。

MLX Delegate能够自动完成模型的图划分、格式序列化以及在运行时调用MLX的Metal GPU计算内核,覆盖的ATen运算操作约90种,足以满足变压器模型的各类推理场景需求,如量化矩阵乘法、多头注意力机制、旋转位置嵌入等。


为什么选择构建MLX Delegate?

这个问题是不是也让你感到疑惑?其实,构建这一工具的背后逻辑并不复杂,总结来说主要有以下三点优势:

性能提升

相比macOS平台上现有的ExecuTorch后端,MLX Delegate可以将生成式AI任务的吞吐量提升3至6倍之多。这种性能提升对涉及实时交互(如聊天应用、实时语音转录)场景尤为重要。

完整集成PyTorch 2

MLX Delegate与PyTorch 2的出口栈无缝衔接。如果你的模型能通过 torch.export 导出,就可以在MLX上运行。当PyTorch更新支持新的模型或量化方法时,这些功能也将无需改动直接支持MLX Delegate。

应用的跨平台可移植性

ExecuTorch统一了各后端的运行时API接口,例如CoreML、XNNPACK、Vulkan甚至CUDA。因此,不论你的后端是MLX,还是基于其他平台的硬件,应用程序的代码几乎无需任何改动,即可确保运行。


量化与精度选项

目前,MLX Delegate支持多种差异化精度与量化策略:

  • 对权重与激活矩阵,支持BF16、FP16与FP32;
  • 2、4、8位仿射量化,可以结合TorchAO的 quantize_ API 实现;
  • 支持NVIDIA基于FP4类型的NVFP4量化;
  • 对共享嵌入层与语言模型头部权重的模型,还支持绑定量化嵌入。

这种灵活的量化选项,不仅能够为不同模型带来定制化性能优化,还让多个平台的模型设计更具兼容性。


可以支持哪些模型?

新媒网跨境了解到,MLX Delegate实际已经在多种主流模型上进行了完整验证。以下为典型应用场景简介:

大语言模型

通常是密集型变压器模型,支持完整的KV缓存与滑动窗口缓存,例如:

  • Llama系列(如Llama 3.2 1B模型);
  • Qwen 3系列(0.6B、1.7B、4B等规模);
  • Gemma系列使用滑动窗口注意力(1B、4B模型)。

此外,稀疏混合专家模型也能适配,其中包含复杂操作,如基于GPU的专家令牌路由:

  • Qwen 3.5 MoE大规模稀疏模型(拥有256个专家单元)。

语音转文字模型

这类模型广泛用于离线录音或实时转录场景:

  • 离线录音模型:如OpenAI Whisper(从tiny版到大规模v3-turbo版)、NVIDIA Parakeet TDT以及Mistral Voxtral;
  • 实时转录模型:支持通过麦克风采集实时转录,如Mistral Voxtral Realtime(4B版本)。

其他模型

超过30种额外模型类型已通过MLX Delegate的后端测试,涵盖密集型变压器、编码解码架构以及视觉模型。


入门指南:如何运行这些模型?

每一个支持的模型都有专门的操作说明文档。以下是几个核心模型的参考:

  1. 通过HuggingFace运行LLM模型,覆盖Llama、Qwen与Gemma模型,建议结合optimum-executorch库完成操作;
  2. 通过export_llm工具导出LLM,如Phi-4与Stories 110M模型;
  3. 导出稀疏Qwen 3.5模型,需使用 --backend mlx 参数;
  4. Voxtral与Whisper语音模型出入转录详细说明

每个技术方案都根据其特性编写了详尽指南。你还可以通过ExecuTorch GitHub创建问题反馈,也可以加入官方Discord频道交流。


新媒网跨境认为,MLX Delegate工具给广大开发者带来了在苹果设备上的更多选择与机会,不论是技术人员还是普通使用者,都将受益于这种高效的运行时后端方案。

新媒网(公号:新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/executorch-llm-deployment-25min.html

评论(0)
暂无评论,快来抢沙发~
快讯:基于Apple Silicon的新工具MLX Delegate问世,可助力ExecuTorch用户在苹果设备GPU上优化深度学习模型性能,提升生成式AI任务运行效率3至6倍。其与PyTorch 2无缝集成,支持量化与多种模型运行。工具仍在实验阶段,有助跨平台AI开发者探索更高效方案。
发布于 2026-05-19
查看人数 194
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。