SME2实测！手机AI抠图突破300毫秒，性能暴涨近4倍！

移动智能设备的普及，深刻改变了人们的生活与工作方式。在当前2026年，人工智能（AI）在这些设备上的应用日益广泛，从智能助手到图像处理，都在不断提升用户体验。其中，即时交互式图像分割技术已成为全球热门应用中的一项关键功能，例如大家熟悉的修图应用中的“抠图”功能。用户只需轻点或简单勾勒，应用便能迅速识别并精确“剪切”出图像中的目标对象，生成像素级的遮罩。这项技术不仅能帮助用户制作个性化贴纸，还能实现背景替换，或对图像特定区域进行局部优化。我们看到，这些功能通常由紧凑型分割模型驱动，结合ExecuTorch（PyTorch的开源设备端推理运行时）与Arm SME2（可伸缩矩阵扩展2）技术，在移动设备上高效运行。接下来，我们将深入探讨这些硬件与软件的创新如何为SqueezeSAM（Instagram“抠图”功能背后的设备端交互式分割模型）的图像分割处理带来了显著加速，并分析这对于移动应用开发者可能产生的广泛影响。

移动AI的崛起与挑战

当前，设备端AI技术正蓬勃发展，一个核心问题是：在移动设备严苛的功耗和延迟限制下，如何让更强大的AI模型运行得更快，从而开启更多可能性？实际上，许多交互式的移动AI功能和工作负载已在中央处理器（CPU）上运行。CPU的优势在于其始终可用、与应用程序无缝集成，并且在多种复杂场景下，能提供高度的灵活性、低延迟和稳定的性能。

对于这类部署而言，性能表现往往取决于CPU执行矩阵密集型计算任务的效率，以及当计算不再是主要瓶颈时，剩余的瓶颈又在哪里。Arm SME2作为Armv9架构引入的一套先进CPU指令集，专为直接在设备上加速矩阵导向的计算工作负载而设计。最新的研究通过将ExecuTorch与XNNPACK部署相结合，量化了SME2在端到端推理中的加速效果，并通过算子级性能分析揭示了具体改进之处。搭载SME2功能的Arm CPU已应用于旗舰智能手机和下一代个人电脑的Arm Lumex计算子系统（CSS）中，市场上已有多款支持SME2的设备。

案例分析：SME2如何加速交互式图像分割

我们以SqueezeSAM模型为例，测量了在ExecuTorch与XNNPACK作为后端运行时，SME2对端到端推理延迟的影响。XNNPACK利用Arm KleidiAI优化内核来发挥SME2的加速潜力。

图1展示了在启用和禁用SME2后，8位整型（INT8）和16位浮点型（FP16）推理都实现了显著的加速。在单核CPU且采用默认功耗设置下，INT8的延迟从556毫秒优化至304毫秒，性能提升了约1.83倍；FP16的延迟从1,163毫秒大幅优化至298毫秒，性能提升了约3.9倍。
图1. 在单核CPU正常模式下（默认移动功耗设置），SME2启用和禁用时SqueezeSAM的端到端延迟。INT8从556毫秒提升至304毫秒（1.83倍）。FP16从1,163毫秒提升至298毫秒（3.90倍）。在此案例研究中，FP16的延迟接近INT8。本研究的所有结果均在搭载SME2功能Arm CPU的vivo X300安卓旗舰智能手机上进行受控测量。性能可能因模型、硬件和特定设备设置而异。

如果没有SME2，这些延迟对于需要快速响应的交互式应用而言过高；但有了SME2，端到端推理在单核上达到了约300毫秒的水平，这使得设备端执行变得可行，并为应用程序的其他部分留出了充足的CPU空间。这些结果表明，SME2切实加速了CPU上的量化INT8模型。同时，在此案例研究中，SME2使FP16的延迟接近INT8，这一点值得关注。这意味着SME2拓宽了实际部署选项的范围，而非简单替代INT8。这为开发者提供了更大的灵活性，可以选择最符合其精度和工作流需求的数值精度，尤其适用于图像超分辨率、图像抠图、低光降噪和高动态范围（HDR）增强等对精度敏感的工作负载。

在缺乏这种FP16加速水平的情况下，移动部署通常主要为了满足延迟目标而被迫转向INT8，即便这意味着要承担量化工作流和可能存在的精度下降风险。除了基准测试数据，这些加速效果直接转化为CPU计算空间的释放。这些释放出的资源可以用于提供更丰富的用户体验，例如并行运行分割和增强功能（如降噪或HDR），同时保持摄像头预览和用户界面的响应速度；或者将单张图像的抠图功能扩展到带有主体跟踪的实时视频抠图；抑或是降低设备的功耗。

技术栈解读：协作共赢

以下图表总结了本案例研究中使用的CPU执行堆栈。模型在PyTorch中定义，通过ExecuTorch导出并运行，CPU计算则委托给XNNPACK作为后端处理。XNNPACK利用Arm KleidiAI——一个为加速Arm CPU上的机器学习工作负载而设计的轻量级优化CPU内核库。这些内核可以在支持SME2的设备上自动利用SME2加速，同时也为非SME2系统提供其他CPU功能的优化实现。

当ExecuTorch启用XNNPACK委托来运行模型时，XNNPACK会根据底层硬件的能力在运行时选择合适的内核实现。在支持SME2的设备上，这使得这些操作中的矩阵乘法计算能够受益于SME2加速，而无需对模型架构或应用程序代码进行任何更改。一旦这些操作得到加速，推理管道的其他部分，例如数据移动、布局转换和未委托的算子，通常会成为下一个瓶颈。这就是为什么算子级性能分析对于理解端到端性能至关重要。
图2. 本案例研究中使用的CPU执行堆栈概述。

本研究使用的SqueezeSAM模型采用了轻量级、大量使用卷积（conv2d）的UNet架构，这代表了许多移动视觉模型的特点。模型结构自然地映射到两大类工作，这些工作强烈影响端到端推理时间：

计算密集型操作： 卷积层（通常通过iGEMM，即隐式通用矩阵乘法实现）和注意力/多层感知机（MLP）层（GEMM，即通用矩阵乘法）。
数据移动操作： 转置、重塑和布局转换。

平台说明：在许多基于Armv9架构的设备上，SME2被实现为跨CPU核心的共享执行资源，其扩展行为可能因系统级芯片（SoC）和CPU微架构而异。我们在评估中明确考虑了这一点，并在解释单核和多核结果时讨论了其影响。

深入分析：单核与多核下的性能表现

我们对同一模型在两种精度（INT8和FP16）下，分别启用和禁用SME2进行了基准测试。我们主要关注单核执行，因为SME2在此提供了最大的相对收益；同时我们也报告了四核结果，以展示当SME2作为共享硬件资源时的绝对延迟和扩展行为。所有测量均报告模型本身的延迟。

模型在搭载SME2的安卓智能手机上使用ExecuTorch执行，并在相同软件和系统条件下启用和禁用SME2。除非另有说明，结果反映了稳定状态下的性能，未出现热节流。所有结果均以“正常模式 | 无限制模式 (毫秒)”的形式报告。正常模式对应于启用系统功耗策略的默认移动功耗设置，代表典型的终端用户行为。无限制模式对应于一种通电、保持唤醒的配置，在此配置下CPU频率限制实际解除；对于单核测量，无限制模式结果被固定在最高性能（本案例中为Ultra/Prime，4.2 GHz）的CPU核心上。在两种模式下，SME2均表现出一致的相对加速趋势，表明其优势不受系统功耗策略的影响，尽管绝对延迟有所不同。除非明确声明，本文的其余部分主要关注正常模式的结果，因为它们更能反映智能手机典型操作条件下用户感知到的延迟。无限制模式的结果旨在说明性能上限和硬件限制，应被解读为最佳情况行为，而非日常终端用户体验。

精度	核心数	SME2禁用 (毫秒)	SME2启用 (毫秒)	加速比
INT8	1	556 \| 334	304 \| 172	1.83× \| 1.95x
	4	195 \| 106	180 \| 104	1.08× \| 1.03x
FP16	1	1,163 \| 735	298 \| 173	3.90× \| 4.26x
	4	374 \| 176	193 \| 124	1.94× \| 1.42x

表1. SqueezeSAM在单核和四核CPU（仅模型延迟）上，SME2启用和禁用时的端到端延迟结果。数值以“正常模式 | 无限制模式”呈现。

关于四核扩展的说明：四核上较小的加速比（例如，INT8为1.08倍，而单核正常模式为1.83倍）与SME2作为共享资源以及内存带宽和缓存行为等其他共享系统效应一致。扩展特性可能因SoC和CPU实现而异。在生产部署中，如果能满足延迟目标，可能会优先考虑一到两个核心以提高能效；而当需要更低的绝对延迟且功耗预算允许时，可以使用额外的核心。

剖析瓶颈：算子级性能分析的价值

端到端延迟数据告诉我们性能提升了多少，但并未解释其原因，也无法指明下一步优化方向。为了理解SME2带来增益的具体环节，以及接下来可能出现的瓶颈，我们采用了算子级性能分析方法。

我们利用ExecuTorch DevTools中的ETDump工具收集每个算子的时间信息，该工具在推理过程中记录了单个算子的执行时间。这使得我们能够将端到端加速归因于模型的特定部分，如图2和表2所示。为确保分析结果具有可操作性，我们将算子归类为几个与常见模型结构清晰对应的类别：

卷积 (Convolution)： Conv2d 层（通常使用 iGEMM 实现）
通用矩阵乘法 (GEMM)： Matmul 和线性层（注意力层和 MLP 投影）
逐元素操作 (Elementwise)： ReLU、GELU、Add、Mul 及其他逐点操作
数据移动 (Data Movement)： 转置、复制、转换、重塑和填充
其他 (Other)： 未委托的算子和框架开销

通过这种细致的分解，我们可以阐明SME2在哪些方面帮助最大，以及在矩阵计算加速后，哪些部分仍是主要瓶颈。
图2. 在安卓智能手机（1个Arm CPU核心，默认移动功耗设置）上，SME2启用和禁用时FP16和INT8的算子类别分解（绝对时间）。SME2显著缩短了卷积和GEMM的时间，数据移动在运行时中占据了更大的比例。

类别	INT8 SME2禁用 (毫秒)	INT8 SME2启用 (毫秒)	INT8 加速比	INT8 占比 (启用)	FP16 SME2禁用 (毫秒)	FP16 SME2启用 (毫秒)	FP16 加速比	FP16 占比 (启用)
卷积 (Convolution)	309.7	69.8	4.4×	23.0%	881.2	98.1	9.0×	32.9%
通用矩阵乘法 (GEMM)	27.3	8.1	3.4×	2.7%	31.6	7.6	4.1×	2.6%
逐元素操作 (Elementwise)	2.1	2.2	1.0×	0.7%	1.6	1.7	0.9×	0.6%
数据移动 (Data Movement)	123.0	125.8	1.0×	41.4%	139.0	119.1	1.2×	39.9%
其他 (Other)	93.7	98.2	1.0×	32.3%	109.6	71.7	1.5×	24.0%
端到端 (E2E)	555.8	304.1	1.83×	–	1,163.0	298.2	3.90×	–

表2. INT8和FP16在SME2禁用与启用时的算子级分解（安卓手机，单核CPU在默认移动功耗设置下）。非矩阵乘法算子主要受运行时变化影响。

三大核心洞察

从端到端和算子级分析结果中，我们总结出以下三点核心洞察：

(1) 洞察一：SME2显著加速矩阵计算，瓶颈转向数据移动

SME2切实降低了INT8和FP16的端到端延迟。在单个Arm CPU核心上，INT8性能提升1.83倍（从556毫秒到304毫秒），FP16性能提升3.90倍（从1,163毫秒到298毫秒）。即使在四核环境下，SME2也显著降低了FP16的延迟（从374毫秒到193毫秒）。这些性能增益使得单核执行时间进入约300毫秒的范围，使交互式设备端执行成为可能，同时为应用程序的其他部分保留了CPU资源。

算子级分析显示，SME2显著加速了矩阵密集型算子。在禁用SME2时，卷积和GEMM操作占据了推理时间的绝大部分，分别占INT8运行时的55.7%和FP16运行时的75.8%。启用SME2后，这些算子得到显著加速，GEMM提升约3-4倍，卷积/iGEMM提升约4-9倍，这是端到端加速的主要驱动力。一旦矩阵计算得到加速，数据移动和框架开销的相对成本随之增加，表明后续优化重点应转向这些方面。

(2) 洞察二：转置操作导致的数据移动占据约40%的运行时长

SME2加速后，数据移动成为主要的运行时组成部分之一。在启用SME2的INT8运行中，数据移动占据总运行时间的41.4%（FP16为39.9%）。ETDump的追踪数据显示，约85%的数据移动时间来自转置操作，其中仅两种转置节点类型就消耗了此类别的80%以上时间。这种开销是由模型和运行时不同部分之间的布局不匹配而非算术密集度驱动的。

实际上，当具有不同布局偏好的算子按顺序组合时，就会出现这种情况，强制进行重复的NCHW↔NHWC转换。在该模型中，我们看到标准化操作在某些情况下被作为可移植的NCHW算子执行，而无法与相邻卷积融合（例如，当非线性激活层位于Conv2d和BatchNorm之间时），同时XNNPACK卷积内核更偏好NHWC布局。这导致在UNet编码器-解码器块内部反复进行布局转换：BatchNorm/GroupNorm (NCHW) → 转置 (NCHW→NHWC) → 卷积 (NHWC) → 转置 (NHWC→NCHW) → BatchNorm/GroupNorm (NCHW)。

由于这种开销是由模型和运行时布局选择而非算术密集度驱动的，因此性能分析对于揭示它并使其成为可行的优化目标至关重要。值得注意的是，这一性能分析洞察已证明具有可操作性。作为初步措施，我们已在ExecuTorch中实现了一项有针对性的图级优化，以减少标准化操作周围不必要的布局转换。在我们的实验中，这在SME2带来的收益基础上，为INT8额外带来了约70毫秒（23%）的延迟降低，为FP16额外带来了约30毫秒（10%）的延迟降低。这些结果证实，大量转置操作导致的数据移动是一个重要的优化机会，并且随着我们继续分析整个图的布局行为，很可能会有进一步的改进。更广泛的发现及其影响将在后续文章中介绍。

(3) 洞察三：在此案例研究中，SME2使FP16精度接近INT8的延迟水平

尽管INT8每个张量元素仅使用一半的内存带宽，但这并不意味着端到端性能能按比例提升。在此案例研究中，启用SME2后，FP16的延迟已接近INT8（单核上分别为298毫秒与304毫秒）。算子分解解释了其中的原因：FP16在卷积加速方面表现尤为强劲（9.0倍，而INT8为4.4倍），这弥补了INT8的内存效率优势。同时，INT8矩阵路径会带来量化、缩放和更复杂的内核调度逻辑等额外开销，从而降低了INT8的有效带宽优势。

最终结果是，SME2拓宽了可行的精度选择范围。INT8仍然是高效的选择，而FP16对于对精度敏感的工作负载而言变得更实用，因为这些工作负载往往不希望承担量化复杂性或精度权衡。尽管在本案例研究中FP16性能接近INT8，但这种行为取决于具体工作负载，并可能因算子组合、张量形状和内存压力而异。

实践指南：工作流再现与学习

为了让开发者亲身体验这一工作流程，我们提供了一个基于开源SAM模型的实践教程。该教程将引导您完成模型导出、使用SME2运行推理，以及利用ETDump进行算子级性能分析的全过程。完整的设置说明和代码示例已在相关代码库和学习路径中提供。

通过本教程，您将了解到：

如何将分割模型导出到ExecuTorch并启用XNNPACK委托。
如何构建模型并将其部署到支持SME2的Android、iOS和macOS设备。
如何运行ETDump性能分析以收集每个算子的时间信息。
如何识别并量化您自己模型中的数据移动和其他非计算瓶颈。

结论与启示：对跨境行业的意义

在SqueezeSAM的案例研究中，SME2为INT8和FP16模型带来了显著的设备端CPU加速，实质性地改变了交互式移动工作负载的实际可行性。

这对开发者和产品团队意味着什么：

设备端机器学习在CPU上变得更具可行性： SME2实现了高达3.9倍的端到端推理速度提升，在默认安卓功耗设置下，将实际交互式移动模型在单核上的延迟从超过一秒降低到大约300毫秒。这使得基于CPU的设备端机器学习从边缘化变得对交互式工作负载具有实际应用价值，同时为应用程序的其他部分保留了资源。
FP16在某些情况下成为更可行的部署选项： 通过大幅加速FP16并缩小与INT8的延迟差距，SME2为开发者提供了更大的灵活性，可以选择最符合精度、工作流和延迟要求的精度，尤其适用于对精度敏感的工作负载。
释放的计算资源可实现更丰富的体验： 释放出的CPU预算可以重新投入到额外的设备端功能中，例如将图像分割与图像增强（例如，降噪或HDR）并行运行，或者将单张图像的抠图功能扩展到带有主体跟踪的实时视频抠图。
性能分析揭示下一个优化目标： 一旦SME2加速了矩阵密集型算子（卷积/iGEMM和GEMM），瓶颈通常会转向数据移动和未委托的算子。使用ETDump进行算子级性能分析可以使这些开销变得可见且可操作。

根据您的起点，有两点具体启示：

如果您目前尚未在设备端部署机器学习模型，SME2驱动的CPU加速可以成为数学密集型模型在移动CPU上部署的第一个可行步骤，而性能分析则提供了一条清晰的路径来验证性能并进行迭代优化。
如果您已在设备端部署模型，SME2可以创造更多计算空间以扩展功能并改善用户体验，同时性能分析将突出显示最具影响力的后续改进（对于SqueezeSAM，转置操作导致的数据转换约占总运行时间的40%）。

总之，SME2加速技术与算子级性能分析相结合，为设备端AI提供了一个实用的工作流程，不仅能够立即实现性能提升，还能识别出最具影响力的下一步优化方向。对于中国跨境行业的从业者而言，这意味着未来在开发面向全球用户的移动应用时，可以利用这些先进技术，提供更流畅、更智能的视觉交互体验，无论是在产品识别、个性化推荐、AR试穿，还是在智能客服和内容创作等领域，都将拥有更广阔的创新空间。我们建议国内相关从业人员持续关注此类技术动态，以便把握未来发展趋势，提升自身产品在全球市场的竞争力。

鸣谢

感谢Meta ExecuTorch团队的Bilgin Cagatay、Mergen Nachin、Digant Desai、Gregory Comer和Andrew Caples在实际用例方面的指导以及对推理优化实现所做出的贡献。同时，也感谢Arm的Ray Hensberger、Ed Miller、Mary Bennion和Shantu Roy在此项工作中的支持与指导。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/sme2-mobile-ai-cutout-300ms-4x-speedup.html

精度	核心数	SME2禁用 (毫秒)	SME2启用 (毫秒)	加速比
INT8	1	556 \| 334	304 \| 172	1.83× \| 1.95x
	4	195 \| 106	180 \| 104	1.08× \| 1.03x
FP16	1	1,163 \| 735	298 \| 173	3.90× \| 4.26x
	4	374 \| 176	193 \| 124	1.94× \| 1.42x