英伟达Cosmos平台!机器人AI训练速度提升2倍?物理世界模拟爆发

2025-08-10AI自主智能体

Image

随着物理人工智能系统的快速发展,对高质量标注数据集的需求正以远超人工采集能力的速度增长。世界基础模型(World Foundation Models,简称WFMs)作为一种生成式人工智能模型,通过模拟、预测和推理真实世界环境动态来生成未来状态,正在成为解决这一数据挑战的关键技术。

新媒网跨境获悉,英伟达公司开发的Cosmos平台专门针对机器人学和自动驾驶等物理AI领域的世界基础模型研发。该平台包含三类可针对具体应用进行后训练的核心模型:Cosmos Predict、Cosmos Transfer和Cosmos Reason。

2025年第二季度,英伟达研究团队在《机器人研发文摘》(R2D2)中详细介绍了这些模型在合成数据生成(SDG)和物理AI数据管理方面的应用进展。Cosmos Predict能通过图像、视频和文本提示生成"未来世界状态"视频;Cosmos Transfer支持开发者基于2D输入和文本提示进行照片级风格迁移;Cosmos Reason则作为视觉-语言推理模型,既能筛选标注生成数据,也能被训练为机器人的视觉-语言-动作(VLA)模型。

预测未来:Cosmos Predict的机器人应用

Cosmos Predict模型通过文本、图像或视频输入,生成具有物理准确性的连贯未来帧序列。该技术显著加快了训练AI模型执行复杂物理任务所需的合成数据生成速度。新媒网跨境了解到,其核心应用包括:

自动驾驶领域的Single2MultiView系统,能够从单一视角的行车视频生成多视角同步画面。开发者可通过特定命令调用模型,如:

CUDA_HOME=$CONDA_PREFIX
PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/video2world_view_extend_multiview.py...

Cosmos-Drive-Dreams工作流则为自动驾驶系统生成包含雾雨等低能见度条件的挑战性驾驶场景。数据显示,该系统能根据"雨林"或"赛博朋克城市"等文本描述,生成具有高度时空一致性的多视角数据。
图片说明

在机器人训练方面,基于DreamGen研究的Isaac GR00T-Dreams方案,利用Cosmos Predict创建人形机器人执行任务的多样化视频。该系统能从图像和文本提示中提取神经轨迹数据,大幅减少对人类示范的依赖。测试显示,机器人能够准确执行如植物浇水等复杂任务。

数据转换:Cosmos Transfer的精准控制

Cosmos Transfer模型通过分割图、深度图、边缘图、激光雷达扫描等多元输入,实现了对场景构成的精确控制。该技术能根据用户文本提示生成多样化视觉特征,有效提升机器人学和自动驾驶领域的模拟-现实转换效果。

在自动驾驶应用中,Cosmos Transfer可从单一驾驶场景生成不同天气、光照和地形条件。开发者通过文本提示如"雪天"或"夜间场景",即可扩展训练数据集。技术文档显示,该系统采用如下典型命令结构:

export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:=0}"
export CHECKPOINT_DIR="${CHECKPOINT_DIR:=./checkpoints}"...

边缘模型蒸馏技术是Cosmos Transfer的重要升级。原始模型生成视频需要70次计算传递,而经过蒸馏的学生模型仅需单步即可完成相同任务,在保持质量的同时显著降低了计算成本。测试表明,该技术在其他控制模式(如深度、分割、高清地图等)同样适用。

逻辑推理:Cosmos Reason的决策支持

作为专注于物理AI推理的世界基础模型,Cosmos Reason通过长链思维推理理解物理常识并生成合理的具身决策。该模型采用监督微调(SFT)和强化学习两阶段训练,在机器人视觉问答等任务中表现突出。开发者可通过特定配置启动SFT训练:

cosmos-rl --config configs/cosmos-reason1-7b-fsdp2-sft.toml...

图片说明

新媒网跨境认为,英伟达在2025年SIGGRAPH大会上的特别演讲将展示Cosmos平台的最新进展。开发者可通过项目网站、GitHub仓库和Hugging Face空间获取相关资源,包括Cosmos Predict2、Cosmos Transfer1等模型的技术文档和论文。

技术团队确认,Cosmos-Predict2采用邻域注意力(NATTEN)机制后,在NVIDIA H100和B200等先进GPU上的视频推理速度提升2至2.5倍。该优化通过硬件专用后端代码实现,动态平衡了全局与局部上下文处理。
图片说明

DiffusionRenderer框架展示了Cosmos Predict在神经渲染领域的应用价值。该系统能从单段视频输入实现照片级重新打光、材质编辑和物体插入,无需明确的三维几何或光照数据。测试结果显示,其生成的画面具有高度时间一致性。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/12477.html

评论(0)

暂无评论,快来抢沙发~
英伟达推出Cosmos平台,利用世界基础模型(WFMs)解决物理人工智能数据集短缺问题。Cosmos平台包含Cosmos Predict、Cosmos Transfer和Cosmos Reason三大模型,分别用于生成未来世界状态视频、风格迁移和视觉-语言推理,加速自动驾驶和机器人训练等领域的应用。采用NATTEN机制的Cosmos-Predict2视频推理速度提升2-2.5倍。
发布于 2025-08-10
查看人数 367
汇率走势
CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。