微软Rho-alpha,机器人适应性大涨,物理AI打破工业壁垒。

长期以来,机器人在受控严格、环境可预测且偏差有限的工业生产环境中表现稳定可靠。然而,一旦脱离这类环境,它们往往会迅速陷入困境。
为了解决机器人适应性不足的问题,微软公司近期公布了其首个机器人模型——Rho-alpha。该模型是微软Phi视觉语言系列模型的衍生产品,旨在通过更优的视觉感知和指令理解能力,提升机器人的环境适应性。微软公司认为,机器人系统应能对不断变化的环境做出响应,而非仅仅遵循预设的固定程序,从而实现在传统装配线之外的更广泛应用。
Rho-alpha的推出,体现了业界对“物理AI”这一概念的日益关注。物理AI的核心在于,期望软件模型能够引导机器在非结构化环境中执行任务,摆脱对固定生产线或指令的依赖,进而实现在复杂多变场景下的自主运作。
这款模型通过将自然语言指令直接转化为机器人控制信号,实现了语言、感知和动作的深度融合。新媒网跨境了解到,Rho-alpha专注于双臂操作任务,这类任务通常需要机器人双臂的高度协调以及对细节的精准控制。微软将该系统描述为对现有视觉-语言-动作(VLA)方法(Vision-Language-Action Models)的进一步拓展,它不仅扩展了感知输入,也强化了学习能力。
微软研究院企业副总裁兼董事总经理阿什利·洛伦斯(Ashley Llorens)表示,针对物理系统而出现的视觉-语言-动作(VLA)模型,正在赋予系统越来越强的感知、推理和行动自主性,使其能够在远不如传统工业环境结构化的场景中与人类协同作业。
Rho-alpha在设计中不仅整合了视觉感知,还加入了触觉感知,目前仍在开发中的增强功能包括力觉感知等其他感知模态。这些设计选择表明,微软正尝试弥合模拟智能与物理交互之间的鸿沟,尽管其最终效果仍在持续评估中。
微软此次研究方法的一个核心在于,利用模拟技术来弥补大规模机器人数据,尤其是涉及触觉数据的稀缺性。通过在英伟达(Nvidia)的Isaac Sim模拟平台中运用强化学习,可以生成合成的运动轨迹数据。这些合成数据随后与来自商业及开放数据集的物理演示数据相结合,以构建更为丰富和多样化的训练数据集。
英伟达机器人与边缘AI副总裁迪普·塔拉(Deepu Talla)指出,训练能够进行推理和行动的基础模型,需要克服多样化真实世界数据稀缺的挑战。他进一步表示,微软研究院正通过利用部署在微软Azure平台上的英伟达Isaac Sim来生成物理精确的合成数据集,以此加速Rho-alpha这类多功能模型的开发进程,使其能够掌握复杂的操纵任务。
此外,微软还强调了在系统部署过程中引入人工修正输入的重要性。这意味着操作人员可以通过远程操控设备进行干预,并向系统提供反馈,而系统则能随着时间的推移从这些反馈中学习并优化性能。这种训练循环融合了模拟数据、真实世界数据和人工修正,反映了当前业界越来越依赖AI工具来弥补具身数据(embodied datasets)稀缺的趋势。
美国华盛顿大学助理教授阿布希谢克·古普塔(Abhishek Gupta)提到,尽管通过远程操控机器人系统来生成训练数据已成为一种常规做法,但在许多情况下,远程操控并不实用甚至无法实现。他表示,研究团队正与微软研究院合作,利用模拟与强化学习的组合,通过多样化的合成演示来丰富从物理机器人收集的预训练数据集。
新媒网跨境认为,Rho-alpha的发布标志着机器人技术向更高层次的自主性和环境适应性迈出了重要一步,预示着机器人在工业制造之外的更广阔应用前景。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/microsoft-rho-alpha-physical-ai-robots-adapt.html


粤公网安备 44011302004783号 











