ExecuTorch模型部署指南：25分钟极速运行LLM

2026-05-19人工智能

ExecuTorch模型部署指南：25分钟极速运行LLM

在近几年的跨境科技发展中，围绕Mac设备性能优化的热点频频涌现，其中，基于Apple Silicon芯片的GPU模型运行逐步被跨境从业者认知与关注。本期新媒网跨境将深入解析ExecuTorch MLX Delegate工具的应用，助力大家提升在苹果设备上的深度学习模型部署效率，同时为大家带来实用的操作指南。
简介图片

近年来，Apple Silicon成为本地运行大语言模型的热门平台。在此前，macOS系统上的ExecuTorch用户大多只能利用CPU后端（如XNNPACK）进行模型推理。但现在，全新的MLX Delegate工具问世了，它能够通过苹果的MLX框架，在其GPU上实现全面优化的推理操作。今天，我们就来聊聊这个工具的用武之地，并手把手教你如何操作。

需要提醒的是，目前MLX Delegate依然处于实验阶段，部分功能模块或接口可能随时发生变动，建议关注其最新动态。

什么是MLX Delegate？

MLX Delegate是ExecuTorch在Apple Silicon上的一款全新后端工具。它的主要功能是将PyTorch模型编译并运行在Apple Silicon GPU上，实现高效的硬件加速推理。

具体来说，你只需通过标准的ExecuTorch模型导出流程：

使用 torch.export 导出模型；
结合 MLXPartitioner 函数，调用 to_edge_transform_and_lower 进行模型结构优化；
通过ExecuTorch运行导出的 .pte 文件。

MLX Delegate能够自动完成模型的图划分、格式序列化以及在运行时调用MLX的Metal GPU计算内核，覆盖的ATen运算操作约90种，足以满足变压器模型的各类推理场景需求，如量化矩阵乘法、多头注意力机制、旋转位置嵌入等。

为什么选择构建MLX Delegate？

这个问题是不是也让你感到疑惑？其实，构建这一工具的背后逻辑并不复杂，总结来说主要有以下三点优势：

性能提升

相比macOS平台上现有的ExecuTorch后端，MLX Delegate可以将生成式AI任务的吞吐量提升3至6倍之多。这种性能提升对涉及实时交互（如聊天应用、实时语音转录）场景尤为重要。

完整集成PyTorch 2

MLX Delegate与PyTorch 2的出口栈无缝衔接。如果你的模型能通过 torch.export 导出，就可以在MLX上运行。当PyTorch更新支持新的模型或量化方法时，这些功能也将无需改动直接支持MLX Delegate。

应用的跨平台可移植性

ExecuTorch统一了各后端的运行时API接口，例如CoreML、XNNPACK、Vulkan甚至CUDA。因此，不论你的后端是MLX，还是基于其他平台的硬件，应用程序的代码几乎无需任何改动，即可确保运行。

量化与精度选项

目前，MLX Delegate支持多种差异化精度与量化策略：

对权重与激活矩阵，支持BF16、FP16与FP32；
2、4、8位仿射量化，可以结合TorchAO的 quantize_ API 实现；
支持NVIDIA基于FP4类型的NVFP4量化；
对共享嵌入层与语言模型头部权重的模型，还支持绑定量化嵌入。

这种灵活的量化选项，不仅能够为不同模型带来定制化性能优化，还让多个平台的模型设计更具兼容性。

可以支持哪些模型？

新媒网跨境了解到，MLX Delegate实际已经在多种主流模型上进行了完整验证。以下为典型应用场景简介：

大语言模型

通常是密集型变压器模型，支持完整的KV缓存与滑动窗口缓存，例如：

Llama系列（如Llama 3.2 1B模型）；
Qwen 3系列（0.6B、1.7B、4B等规模）；
Gemma系列使用滑动窗口注意力（1B、4B模型）。

此外，稀疏混合专家模型也能适配，其中包含复杂操作，如基于GPU的专家令牌路由：

Qwen 3.5 MoE大规模稀疏模型（拥有256个专家单元）。

语音转文字模型

这类模型广泛用于离线录音或实时转录场景：

离线录音模型：如OpenAI Whisper（从tiny版到大规模v3-turbo版）、NVIDIA Parakeet TDT以及Mistral Voxtral；
实时转录模型：支持通过麦克风采集实时转录，如Mistral Voxtral Realtime（4B版本）。

其他模型

超过30种额外模型类型已通过MLX Delegate的后端测试，涵盖密集型变压器、编码解码架构以及视觉模型。

入门指南：如何运行这些模型？

每一个支持的模型都有专门的操作说明文档。以下是几个核心模型的参考：

通过HuggingFace运行LLM模型，覆盖Llama、Qwen与Gemma模型，建议结合optimum-executorch库完成操作；
通过export_llm工具导出LLM，如Phi-4与Stories 110M模型；
导出稀疏Qwen 3.5模型，需使用 --backend mlx 参数；
Voxtral与Whisper语音模型出入转录详细说明。

每个技术方案都根据其特性编写了详尽指南。你还可以通过ExecuTorch GitHub创建问题反馈，也可以加入官方Discord频道交流。

新媒网跨境认为，MLX Delegate工具给广大开发者带来了在苹果设备上的更多选择与机会，不论是技术人员还是普通使用者，都将受益于这种高效的运行时后端方案。

新媒网（公号：新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/executorch-llm-deployment-25min.html

评论（0）

暂无评论，快来抢沙发~

快讯：基于Apple Silicon的新工具MLX Delegate问世，可助力ExecuTorch用户在苹果设备GPU上优化深度学习模型性能，提升生成式AI任务运行效率3至6倍。其与PyTorch 2无缝集成，支持量化与多种模型运行。工具仍在实验阶段，有助跨平台AI开发者探索更高效方案。

发布于 2026-05-19

查看人数 194

人民币汇率走势

CNY

亚马逊热销榜

共 0 SKU 上次更新 NaN:NaN:NaN

类目：切换分类

暂无数据

暂无数据

推荐文章

埃里森404亿天价担保，派拉蒙千亿并购WBD炸裂！

埃里森404亿天价担保，派拉蒙千亿并购WBD炸裂！

AI搜索时代！金融品牌，AI引用份额成声誉新战场！

AI搜索时代！金融品牌，AI引用份额成声誉新战场！

BigBear.ai普通股翻倍，决战国防AI！

BigBear.ai普通股翻倍，决战国防AI！

CIMB+ESGpedia助百企2025减排，融资享折扣！

CIMB+ESGpedia助百企2025减排，融资享折扣！

英伟达Q2营收狂飙56%！跨境AI商机大爆发

英伟达Q2营收狂飙56%！跨境AI商机大爆发

ChatGPT：跨境客服成本大降，多语种效率暴涨！

ChatGPT：跨境客服成本大降，多语种效率暴涨！

AI机器人攻占维基，用户锐减8%！

AI机器人攻占维基，用户锐减8%！

OpenAI IPO悬了！万亿估值，2785%营收压顶！

OpenAI IPO悬了！万亿估值，2785%营收压顶！

500亿估值！智元冲港股，人形机器人蓝海商机

500亿估值！智元冲港股，人形机器人蓝海商机

CoreWeave股价翻倍！AI跨境掘金2025新风口

CoreWeave股价翻倍！AI跨境掘金2025新风口

关注我们

NMedia

新媒网跨境发布

本站原创内容版权归作者及NMedia共同所有，未经许可，禁止以任何形式转载。

版权所有 ©2025 NMedia 新媒网（广州）科技有限公司

粤公网安备 44011302004783号

粤公网安备 44011302004783号粤ICP备2025374330号-1
增值电信业务经营许可证：粤B2-20252378