英伟达Cosmos:机器人98.5%成功率!中国跨境新蓝海

当前,全球范围内人工智能技术正以前所未有的速度向前发展,尤其是在机器人控制和规划领域,持续的技术突破正深刻改变着传统工业、自动驾驶乃至服务业的未来图景。中国作为全球重要的制造业中心和技术创新高地,对这些前沿技术的发展保持着高度关注,并积极探索其在产业升级和国际贸易中的应用潜力。在这一背景下,英伟达(NVIDIA)作为人工智能领域的领军企业,致力于通过其世界基础模型(World Foundation Models, WFMs)解决机器人技术中的复杂难题,并于近日推出了其在机器人控制方面的新研究成果——英伟达Cosmos策略(Cosmos Policy),旨在进一步推动机器人控制与规划能力的边界。
Cosmos策略:机器人控制与规划的新探索
英伟达Cosmos策略,是其最新发布的一项尖端机器人控制策略。这项策略的核心在于,它在Cosmos预测-2世界基础模型的基础上进行了后续训练,使其能够有效地处理各类操作任务。通过将机器人的具体动作和未来的状态直接编码进模型中,Cosmos策略在LIBERO和RoboCasa等行业标准基准测试中展现出了卓越的性能。
深入来看,Cosmos策略是一种通过对Cosmos预测模型进行微调而获得的机器人控制与规划方案。Cosmos预测模型本身是一个经过训练用于预测未来帧的世界基础模型。值得关注的是,Cosmos策略并未引入新的架构组件或独立的动作模块,而是通过对机器人演示数据进行单一阶段的后续训练,直接对预训练模型进行适应性改造。
在机器人系统中,策略扮演着决策大脑的角色,它负责将观测数据(例如摄像头图像)转化为物理动作(如移动机械臂),从而完成各项任务。Cos Cosmos策略的突破性创新之处,在于它处理这些数据的方式。与为机器人的感知和控制分别构建独立的神经网络不同,Cosmos策略将机器人的动作、物理状态和任务成功评分,都视为视频中的帧来处理。所有这些信息都被编码为额外的“潜在帧”,并使用与视频生成相同的扩散过程进行学习。这种方法使得模型能够充分继承其在预训练阶段所习得的对物理学、重力以及场景如何随时间演变的深层理解。“潜在”在这里指的是模型在内部理解数据时所使用的压缩数学语言,而非原始像素数据。
通过这种独特的设计,一个单一的Cosmos策略模型能够同时实现多项关键功能:
- 动作序列预测:它能够预测一系列动作块,通过手眼协调能力(即视觉运动控制)指导机器人运动。
- 未来观测预测:模型能够预测机器人未来的观测状态,这对于构建精确的世界模型至关重要。
- 预期回报预测:它还能预测任务的预期回报(即价值函数),为机器人的决策规划提供依据。
这三项能力在一个统一的模型中协同学习、共同发展。Cosmos策略既可以作为直接策略部署,在推理时仅生成动作;也可以作为规划策略部署,通过预测多个候选动作产生的未来状态和价值,对这些动作进行评估。这种灵活性使得Cosmos策略在应对复杂多变的任务时,具有更强的适应性和鲁棒性。
基石模型:Cosmos预测及其重要性
近年来,机器人操作领域的研究日益倾向于依赖大型预训练骨干网络,以提高模型的泛化能力和数据效率。这类方法大多基于在大量图像-文本数据集上训练的视觉语言模型(VLMs),并对其进行微调以预测机器人动作。虽然这些模型能够理解视频并描述所看到的内容,但它们通常不直接学习如何精确地执行物理动作。一个视觉语言模型可以建议进行“左转”或“拿起紫色杯子”这样的高级动作,但它并不知道如何精确地实施这些操作。
与此形成鲜明对比的是,世界基础模型(WFMs)的训练目标是预测场景如何随时间演变,并生成时态动态的视频。这些能力与机器人控制的需求直接相关,因为机器人动作必须考虑到环境和机器人自身状态随时间的变化。Cosmos预测模型正是为此类物理AI任务而训练的。它采用基于时空连续潜在变量的扩散目标,使其能够对长时间序列中复杂、高维和多模态的分布进行建模。这一独特的设计使得Cosmos预测模型成为视觉运动控制的天然基础:
- 状态转换学习:该模型通过未来帧预测,已经内在地学习了状态转换的规律。
- 多模态输出支持:其扩散公式支持多模态输出,这对于存在多种有效动作序列的任务至关重要。
- 长序列与多模态扩展:基于Transformer的去噪器可以扩展到处理长序列和多种模态的数据。
Cosmos策略正是建立在经过后续训练的Cosmos预测-2模型之上,利用该模型原生的扩散过程,在生成机器人动作的同时,也能生成未来的观测结果和价值估算。这使得该策略能够完全继承预训练模型对时序结构和物理交互的深刻理解,同时保持训练和部署的简便性。当前,最新版的Cosmos预测2.5版本已推出,进一步强化了其基础能力。
实测成果一览:性能数据亮点
为了全面评估Cosmos策略的性能,研究团队在多个仿真基准测试和真实世界的机器人操作任务中对其进行了广泛评估。对比对象包括从头开始训练的基于扩散的策略、基于视频的机器人策略以及经过微调的视觉语言动作(VLA)模型。
Cosmos策略在LIBERO和RoboCasa这两个标准基准上进行了评估。这两个基准专门用于衡量多任务和长周期机器人操作的性能。在LIBERO测试中,Cosmos策略在各项任务套件中持续超越了以往的扩散策略和基于VLA的方法,尤其是在那些需要精确时序协调和多步骤执行的任务上表现突出。
| 模型 | 空间成功率(%) | 物体成功率(%) | 目标成功率(%) | 长期成功率(%) | 平均成功率(%) |
|---|---|---|---|---|---|
| Diffusion Policy | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| Dita | 97.4 | 94.8 | 93.2 | 83.6 | 92.3 |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| UVA | -- | -- | -- | 90.0 | -- |
| UniVLA | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| Video Policy | -- | -- | -- | 94.0 | -- |
| OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 94.5 | 97.1 |
| CogVLA | 98.6 | 98.8 | 96.6 | 95.4 | 97.4 |
| Cosmos Policy (本策略) | 98.1 | 100.0 | 98.2 | 97.6 | 98.5 |
而在RoboCasa基准测试中,Cosmos策略也取得了比从头开始训练的基线模型更高的成功率,这充分展示了其在各种家庭操作场景中更强的泛化能力。
| 模型 | 每任务训练演示次数 | 平均成功率(%) |
|---|---|---|
| GR00T-N1 | 300 | 49.6 |
| UVA | 50 | 50.0 |
| DP-VLA | 3000 | 57.3 |
| GR00T-N1 + DreamGen | 300 (+10000 合成数据) | 57.6 |
| GR00T-N1 + DUST | 300 | 58.5 |
| UWM | 1000 | 60.8 |
| π0 | 300 | 62.5 |
| GR00T-N1.5 | 300 | 64.1 |
| Video Policy | 300 | 66.0 |
| FLARE | 300 | 66.4 |
| GR00T-N1.5 + HAMLET | 300 | 66.4 |
| Cosmos Policy (本策略) | 50 | 67.1 |
在这两个基准测试中,从Cosmos预测模型进行初始化,相比于在没有视频预训练的情况下训练相同架构的模型,带来了显著的性能优势。这表明世界基础模型的预训练能力对机器人控制的效率和效果具有关键的提升作用。
规划与直接策略执行的协同增效
当Cosmos策略作为直接策略部署时,它在大多数任务中已能达到或超越当前的先进水平。更进一步,当通过基于模型的规划能力进行增强时,在两项具有挑战性的真实世界操作任务中,我们观察到平均任务完成率提升了12.5%。这表明,结合了对未来状态和价值预测的规划能力,能够显著提高机器人在复杂环境中的决策质量和任务成功率。
真实世界操作中的卓越表现
除了仿真环境,Cosmos策略还在使用ALOHA机器人平台的真实世界双臂操作任务中进行了评估。实践证明,该策略能够直接根据视觉观测,成功执行长周期复杂操作任务。这为工业自动化、精密制造以及各类服务机器人应用开辟了新的可能性,尤其对于需要高精度、柔性操作的场景,例如电子产品组装、精细物流分拣等,提供了强大的技术支撑。
展望未来:Cosmos创新挑战赛与生态共建
英伟达Cosmos策略代表了将世界基础模型应用于机器人控制与规划的初步探索。英伟达正积极与早期使用者合作,共同推进这项研究,使其能更好地服务于全球机器人社区。与此同时,通过实用的Cosmos Cookbook指南,开发者们可以方便地学习如何采用并构建Cosmos策略。
为支持开发者对Cosmos世界基础模型进行实践性实验,英伟达宣布举办“Cosmos创新挑战赛”(Cosmos Cookoff)。这是一个开放的编程马拉松活动,旨在鼓励开发者利用Cosmos模型和配套的开发食谱,构建创新应用和工作流程。当前,最新一期的挑战赛已全面启动,诚邀全球在机器人、自动驾驶和视频分析领域的物理AI开发者参与其中,探索前沿、快速原型、并与专家共同学习。
本届挑战赛的具体信息如下:
- 时间:2026年1月29日至2月26日
- 团队形式:最多4名成员
- 奖项设置:包括5000美元现金奖励、英伟达DGX Spark使用权、英伟达GeForce RTX 5090 GPU等丰厚奖品。
- 评审团队:项目将由来自Datature、Hugging Face、Nebius、Nexar和英伟达的专家进行评审。这些评委在开放模型、云计算/计算能力以及真实世界边缘和视觉AI部署方面拥有深厚的经验。

如何参与
在整个2026年2月,英伟达还将举办一系列线上教程、合作伙伴分享会和专家问答(AMA)活动,届时将有Intbot、Milestone Systems、Nebius等行业领袖参与。这些活动为开发者提供了宝贵的学习和交流机会,帮助他们更好地理解和应用Cosmos系列技术。
对中国跨境行业的影响与建议
对于中国的跨境行业而言,英伟达Cosmos策略这样的先进机器人控制技术,蕴含着巨大的发展潜力和战略意义。
首先,在智能制造领域,高精度、高效率的机器人控制能力能够显著提升我国制造业的自动化水平和柔性生产能力。例如,在电子产品、高端装备等对精度要求极高的出口产品生产线上,Cosmos策略可以赋能机器人实现更精细的组装、检测和包装,从而提升产品质量和国际竞争力。这对于中国制造业从“大”到“强”,实现产业升级具有积极的推动作用。
其次,在跨境物流与仓储环节,自动化技术的应用是提升效率、降低成本的关键。Cosmos策略所展现的强大操作能力,可以应用于智能仓储系统中的货物分拣、搬运和库存管理,尤其是在跨境电商日益蓬勃的今天,自动化履约中心能大幅缩短发货周期,提升消费者体验。更智能的机器人可以处理异形包裹、实现更精准的堆叠,减少人工依赖,提高物流链的韧性和效率。
再者,在服务机器人领域,随着技术成熟和成本下降,具备高水平操作和规划能力的服务机器人未来在海外市场或国内服务业中的应用将更加广泛。无论是零售业的智能导购、餐饮行业的自动化助手,还是医疗辅助机器人,Cosmos策略的通用性为这些创新应用提供了坚实的技术基础。
对于国内的科研机构、高科技企业以及广大开发者而言,英伟达Cosmos策略及其所代表的世界基础模型在机器人领域的应用趋势,是一个值得深入研究和积极参与的领域。
我们建议国内相关从业人员:
- 持续关注前沿动态:密切跟踪国际领先企业在机器人和AI基础模型方面的最新研究成果和产品发布。
- 积极参与生态建设:鼓励国内企业和科研机构,尤其是拥有机器人技术储备和AI研发实力的团队,积极参与如Cosmos创新挑战赛这类国际性开放活动。这不仅是展示自身技术实力的平台,更是学习先进经验、拓展国际合作的宝贵机会。
- 探索本土化应用:深入思考如何将Cosmos策略等通用型机器人控制技术,结合中国特有的工业场景和市场需求进行本土化创新和应用开发,形成具有中国特色的解决方案。
- 加强人才培养:重视在机器人控制、人工智能、深度学习等领域的复合型人才培养,为我国在未来全球机器人技术竞争中占据有利地位提供坚实的人才保障。
新一代机器人控制技术的崛起,将加速全球产业的智能化转型。对于中国的跨境行业而言,把握住这些前沿技术带来的机遇,将其融入到智能制造、高效物流、创新服务等各个环节,无疑是提升国际竞争力、实现高质量发展的关键路径。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-cosmos-robot-985-new-market.html


粤公网安备 44011302004783号 











