英伟达AI革命:机器人训练提速30倍,36小时打造人形机器人

2025-07-16前沿技术

Image

在机器人技术领域,训练机器人掌握新技能往往需要耗费大量人力收集标注数据。最近,来自美国科技企业英伟达的研究团队通过生成式人工智能技术,为解决这一难题开辟了新路径。新媒网跨境获悉,其核心突破在于运用"世界基础模型"(如NVIDIA Cosmos)及数据生成蓝图(如Isaac GR00T-Mimic和GR00T-Dreams),构建起高效的机器人训练体系。

智能模型驱动数据革命
被称为"宇宙"(Cosmos)的世界基础模型,通过分析数百万小时真实场景数据获得预测能力。它能根据单张图像推演未来场景,生成连续视频流。这种能力为机器人及自动驾驶系统预判环境变化提供支持,同时大幅缩短训练数据制备周期。传统需数月完成的数据准备工作,如今仅需数小时即可生成高保真、多样化的虚拟训练素材。

DreamGen:数据工厂的智能引擎
面对机器人学习所需海量操作数据的采集难题,DreamGen合成数据流水线应运而生。该技术作为Isaac GR00T-Dreams蓝图的基石,通过世界基础模型自动生成逼真的机器人运动轨迹数据。

传统方法中,每项新任务都需要重新录制人类演示视频。而纯仿真方案又常受"虚实差异"困扰。DreamGen创新性地采用四步工作流:首先微调基础模型适应目标机器人;接着生成新任务的逼真视频;随后提取动作轨迹;最终训练出能应对未知场景的视觉运动策略。
跨环境策略泛化演示
图1. 跨环境策略泛化效果
四步工作流示意图
图2. DreamGen核心流程

为验证模型质量,研究团队开发了DreamGen Bench评估体系。该基准测试聚焦两大关键指标:指令执行准确度与物理规则遵循度。新媒网跨境了解到,测试数据显示,在此评估中获得高分的模型,其生成的训练数据能使机器人在真实任务中获得更优表现。

通用机器人的进化之路
基于DreamGen技术构建的GR00T N1模型,成为全球首个开放式人形机器人基础模型。该模型采用双系统架构,融合视觉、语言与行动能力,使机器人能够理解复杂指令并执行多步骤任务。其升级版GR00T N1.5仅用36小时就完成训练,相较传统人工数据采集方式提速数十倍。

更令人瞩目的是"视频潜动作预训练"(LAPA)技术。该方法从18万段网络视频中自主学习动作规律,无需人工标注。通过三阶段训练:动作量化提取、潜动作预训练、实体机器人适配,最终实现超越传统方法6.22%的实操性能,训练效率提升30倍以上。
潜动作训练示意图
图4. 潜动作训练流程

虚实融合的训练革命
针对仿真训练与现实应用的落差问题,"虚实协同训练"方案给出创新解法。该方法将少量实体机器人演示与海量仿真数据结合,既控制成本又弥合虚实差距。研究数据显示,采用该方案的策略成功率较纯实体训练提升38%,即使在400组实体数据条件下仍保持显著优势。
虚实协同流程
图5. 虚实协同训练阶段
任务场景对比
图6. 虚实环境任务演示
训练效果对比图
图7. 训练效果对比

产业落地进行时
目前,德国NEURA Robotics正应用该技术加速智能家居系统开发;中国台湾企业Foxlink则用以提升工业机械臂的作业柔性;工业机器人制造商AeiRobot通过自然语言理解优化分拣流程。新媒网跨境认为,这些实践验证了合成数据技术在工业场景的应用价值。

随着全球科技企业持续探索,机器人训练效率的革新正在打开智能自动化新纪元。从工厂流水线到家庭服务场景,通用型机器人的进化之路已迎来关键突破点。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/5164.html

评论(0)

暂无评论,快来抢沙发~
英伟达研究团队利用生成式AI技术开发'世界基础模型'和DreamGen数据流水线,显著提升机器人训练效率,通过合成数据与虚实协同训练解决传统数据采集难题,推动通用机器人技术发展。
发布于 2025-07-16
查看人数 2013
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。