ExecuTorch模型部署指南:25分钟极速运行LLM

在近几年的跨境科技发展中,围绕Mac设备性能优化的热点频频涌现,其中,基于Apple Silicon芯片的GPU模型运行逐步被跨境从业者认知与关注。本期新媒网跨境将深入解析ExecuTorch MLX Delegate工具的应用,助力大家提升在苹果设备上的深度学习模型部署效率,同时为大家带来实用的操作指南。
近年来,Apple Silicon成为本地运行大语言模型的热门平台。在此前,macOS系统上的ExecuTorch用户大多只能利用CPU后端(如XNNPACK)进行模型推理。但现在,全新的MLX Delegate工具问世了,它能够通过苹果的MLX框架,在其GPU上实现全面优化的推理操作。今天,我们就来聊聊这个工具的用武之地,并手把手教你如何操作。
需要提醒的是,目前MLX Delegate依然处于实验阶段,部分功能模块或接口可能随时发生变动,建议关注其最新动态。
什么是MLX Delegate?
MLX Delegate是ExecuTorch在Apple Silicon上的一款全新后端工具。它的主要功能是将PyTorch模型编译并运行在Apple Silicon GPU上,实现高效的硬件加速推理。
具体来说,你只需通过标准的ExecuTorch模型导出流程:
- 使用
torch.export导出模型; - 结合
MLXPartitioner函数,调用to_edge_transform_and_lower进行模型结构优化; - 通过ExecuTorch运行导出的
.pte文件。
MLX Delegate能够自动完成模型的图划分、格式序列化以及在运行时调用MLX的Metal GPU计算内核,覆盖的ATen运算操作约90种,足以满足变压器模型的各类推理场景需求,如量化矩阵乘法、多头注意力机制、旋转位置嵌入等。
为什么选择构建MLX Delegate?
这个问题是不是也让你感到疑惑?其实,构建这一工具的背后逻辑并不复杂,总结来说主要有以下三点优势:
性能提升
相比macOS平台上现有的ExecuTorch后端,MLX Delegate可以将生成式AI任务的吞吐量提升3至6倍之多。这种性能提升对涉及实时交互(如聊天应用、实时语音转录)场景尤为重要。
完整集成PyTorch 2
MLX Delegate与PyTorch 2的出口栈无缝衔接。如果你的模型能通过 torch.export 导出,就可以在MLX上运行。当PyTorch更新支持新的模型或量化方法时,这些功能也将无需改动直接支持MLX Delegate。
应用的跨平台可移植性
ExecuTorch统一了各后端的运行时API接口,例如CoreML、XNNPACK、Vulkan甚至CUDA。因此,不论你的后端是MLX,还是基于其他平台的硬件,应用程序的代码几乎无需任何改动,即可确保运行。
量化与精度选项
目前,MLX Delegate支持多种差异化精度与量化策略:
- 对权重与激活矩阵,支持BF16、FP16与FP32;
- 2、4、8位仿射量化,可以结合TorchAO的
quantize_API 实现; - 支持NVIDIA基于FP4类型的NVFP4量化;
- 对共享嵌入层与语言模型头部权重的模型,还支持绑定量化嵌入。
这种灵活的量化选项,不仅能够为不同模型带来定制化性能优化,还让多个平台的模型设计更具兼容性。
可以支持哪些模型?
新媒网跨境了解到,MLX Delegate实际已经在多种主流模型上进行了完整验证。以下为典型应用场景简介:
大语言模型
通常是密集型变压器模型,支持完整的KV缓存与滑动窗口缓存,例如:
- Llama系列(如Llama 3.2 1B模型);
- Qwen 3系列(0.6B、1.7B、4B等规模);
- Gemma系列使用滑动窗口注意力(1B、4B模型)。
此外,稀疏混合专家模型也能适配,其中包含复杂操作,如基于GPU的专家令牌路由:
- Qwen 3.5 MoE大规模稀疏模型(拥有256个专家单元)。
语音转文字模型
这类模型广泛用于离线录音或实时转录场景:
- 离线录音模型:如OpenAI Whisper(从tiny版到大规模v3-turbo版)、NVIDIA Parakeet TDT以及Mistral Voxtral;
- 实时转录模型:支持通过麦克风采集实时转录,如Mistral Voxtral Realtime(4B版本)。
其他模型
超过30种额外模型类型已通过MLX Delegate的后端测试,涵盖密集型变压器、编码解码架构以及视觉模型。
入门指南:如何运行这些模型?
每一个支持的模型都有专门的操作说明文档。以下是几个核心模型的参考:
- 通过HuggingFace运行LLM模型,覆盖Llama、Qwen与Gemma模型,建议结合
optimum-executorch库完成操作; - 通过export_llm工具导出LLM,如Phi-4与Stories 110M模型;
- 导出稀疏Qwen 3.5模型,需使用
--backend mlx参数; - Voxtral与Whisper语音模型出入转录详细说明。
每个技术方案都根据其特性编写了详尽指南。你还可以通过ExecuTorch GitHub创建问题反馈,也可以加入官方Discord频道交流。
新媒网跨境认为,MLX Delegate工具给广大开发者带来了在苹果设备上的更多选择与机会,不论是技术人员还是普通使用者,都将受益于这种高效的运行时后端方案。
新媒网(公号:新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/executorch-llm-deployment-25min.html


粤公网安备 44011302004783号 













