i.MX平台VLA模型优化：异步推理效率提升50%

对大语言模型的最新进展浅析

近年来，大语言模型取得了巨大突破，其能力已经从单纯的文本推理进化到多模态应用，例如视觉-语言模型（VLMs）的视觉感知，再到集成机器人动作反馈的视觉-语言-动作模型（VLA）。这些进展为各类复杂场景提供了全新的解决方案，但如何将这些强大的模型部署到嵌入式机器人平台上，依然面临不小的挑战。

特别是在嵌入式设备上，由于计算、存储以及功耗的限制，再加上机器人实时控制的需求，使得整个系统的部署和调试格外困难。例如，当VLA模型正在运行推理计算的时候，机器人手臂就会因为等待指令而暂停，导致动作出现不连续性或者延迟调整的问题。

如何破解？

一种有效的方法是通过“异步推理”来实现动作和推理的分离，从而确保机器人动作平滑无缝地完成。但实现这一点需要确保推理的时延低于动作执行的时间，也就是推理速度必须快于实际操作速度，这对算力优化提出了明确要求。

新媒网跨境认为，将VLA模型引入嵌入式平台，不仅涉及模型压缩，还需要全面的系统工程架构调整，包括对架构进行拆解、时延调度及硬件适配的执行方案。

接下来，我们将分享在这方面的实战经验，包括如何录制高质量数据集、微调VLA策略以及如何通过NXP的i.MX95平台来优化模型性能。

高质量的、稳定的数据远比大量但杂乱无章的数据更具价值。我们通过以下步骤，确保数据录制满足实际工作需要，以下内容适用于跨境开发伙伴。

任务示例：将茶包放入杯中。

一致性至关重要，高质量数据的录制需要以下条件的保障：

增加安装在机械手臂上的“抓取视角摄像头”可以有效提升操作的准确度。虽然摄像头数量越多会延长时延，但合理平衡可以取得最优效果。

建议三视角布局：顶部视角、抓取摄像头视角和侧面视角。

抓取摄像头的增添显著提升了高精度任务的成功率。需要特别注意摄像头电缆的固定，可使用维洛带等，避免运动中的视角被遮挡。

简单的硬件优化可助力任务完成。例如，在机械手指上套上热收缩胶管，可有效提升摩擦力和抓取稳定性，减少因物体滑落而造成的操作失败。
胶管抓取优化图

多样性是数据集的关键。数据录制时需特别关注以下几点：

例如不同起始位置的数据收录效果如下：

起始位置1：
位置1

通过以下流程，我们完成了“将茶包放入杯中”任务的模型微调：

新媒网跨境预测，在微调领域，适度超出过拟合点可帮助模型进一步提升对于任务的表现能力。

i.MX95集成了支持多摄像头的高级处理器和NPU，为嵌入式应用提供高效算力。以下为我们优化此平台的实战要点：

将VLA模型分解为“视觉编码器-语言模型-动作模块”，逐步对每个核心部分进行优化并定制执行计划。

通过量化优化降低部分模块的执行时延，例如视觉编码器和语言模型的量化压缩，但对于存在稳定需求的模块保持较高精度。

通过同时规划和执行动作，减少因等待而产生的延迟，但需确保推理时长小于动作时长，即保证：
$T_{\text{inference}} < T_{\text{execution}}$

优化结果如下图所示：
同步操作：
同步结果图
异步操作：
异步结果图

我们未来目标：一方面提升SmolVLA模型的任务完成率，另一方面拓展到长时间任务。此外，将通过以下措施实现更大突破：

新媒网跨境认为，在嵌入式平台上运作机器人AI是一个复杂的多领域结合任务，既需要高效科学的调度架构，还需要针对硬件性能的深度优化。技术的突破加速了跨行业的创新，也为机器人技术落地提供了坚实支持。未来，让我们共同探索更多可能！

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。