英伟达Cosmos Reason 2:长上下文提升15倍,助跨境高效!

2026-01-06AI工具

英伟达Cosmos Reason 2:长上下文提升15倍,助跨境高效!

在数字与现实世界日益融合的2026年,人工智能技术正以前所未有的速度渗透到我们生活的方方面面。特别是在实体AI(Physical AI)领域,即让AI系统能够理解物理世界并与之交互的技术方向,近年来取得了突破性进展。其中,视觉语言模型(Vision Language Models, VLMs)扮演着核心角色,它们旨在赋予机器如同人类一般的视觉感知和逻辑推理能力。2026年上半年,英伟达(NVIDIA)发布了其在该领域的最新力作——Cosmos Reason 2,这款模型不仅在复杂任务处理上展现出更强的能力,也为实体AI的未来发展描绘了新的图景。

长期以来,视觉语言模型在图像识别和模式识别方面表现卓越。然而,在面对诸如多步骤规划、处理不确定性或适应新环境等对人类而言自然而然的任务时,这些模型仍面临挑战。Cosmos Reason系列模型的诞生,正是为了弥合这一差距,通过增强机器人和AI智能体的常识与推理能力,使其能够逐步解决复杂的现实世界问题。Cosmos Reason 2作为一款前沿的开源视觉语言推理模型,旨在赋能机器人和AI智能体,使其能够像人类一样感知、理解、规划并在物理世界中采取行动。它巧妙地结合了常识、物理规律以及先验知识,以识别物体在时空中的运动轨迹,从而有效应对复杂任务,适应新的情境,并自主探索解决问题的路径。

核心能力提升

此次发布的Cosmos Reason 2在多个核心能力上实现了显著的提升,为实体AI的应用提供了更为坚实的技术基础:

  • 时空理解与时间戳精度优化: 模型在理解物体在空间和时间上的动态变化方面表现更优,并能提供更高精度的时间戳信息,这对于需要精确时序分析的应用尤为关键。
  • 灵活部署与性能提升: Cosmos Reason 2通过20亿和80亿参数的多种模型尺寸,优化了性能,支持从边缘设备到云端的灵活部署,满足不同规模和资源限制的应用需求。
  • 空间理解与视觉感知能力拓展: 新版本增加了对2D/3D点定位、边界框坐标、轨迹数据以及光学字符识别(OCR)等更广泛空间理解和视觉感知能力的支持,极大地丰富了模型的应用场景。
  • 长上下文理解能力增强: 相比于Cosmos Reason 1的1.6万输入令牌,Cosmos Reason 2将输入令牌提升至25.6万,显著增强了其对长上下文的理解能力,使得模型能够处理更复杂、更长的序列信息。
  • 多用途场景适应性: 借助易于使用的Cosmos Cookbook示例,该模型能够轻松适应多种应用场景,降低了开发门槛,加速了创新应用的落地。

热门应用场景

Cosmos Reason 2凭借其强大的能力,在多个领域展现出广阔的应用前景:

1. 视频分析智能体

在当今社会,视频数据已成为信息的重要载体。Cosmos Reason 2赋能的视频分析智能体,能够从海量的视频数据中提取有价值的洞察,从而优化各种流程。在Cosmos Reason 1的基础上,新版本增加了OCR支持,以及2D/3D点定位和一系列标记理解能力。例如,它能够理解视频中嵌入的文本信息,从而判断暴雨期间的道路状况,为交通管理提供实时参考。

开发者可以利用英伟达的视频搜索和摘要(VSS)蓝图,结合Cosmos Reason作为视觉语言模型,快速启动视频分析智能体的开发。例如,位于美国的Salesforce公司正利用Agentforce和VSS蓝图(采用Cosmos Reason作为VLM),通过分析Cobalt机器人捕获的视频片段,来改进工作场所的安全和合规性,提升运营效率和风险管理能力。

2. 数据标注与质检

高质量的训练数据是AI模型成功的基石。Cosmos Reason 2能够帮助开发者自动化地进行大规模、多样化训练数据集的高质量标注与质检。无论是真实世界还是合成生成的训练视频,Cosmos Reason都能提供带时间戳的详细描述,显著提升数据处理的效率和准确性。
Data annotation and critique example
上图展示了为赛车视频生成详细带时间戳字幕的示例提示。美国打车服务巨头Uber公司正在探索利用Cosmos Reason 2为其自动驾驶(AV)训练数据提供精确、可搜索的视频字幕,从而高效识别关键驾驶场景,加速自动驾驶技术的研发进程。通过这项合作,研究人员发布了Cosmos Reason 2用于AV视频字幕和视觉问答(VQA)的特定应用指南,演示了如何在标注过的AV视频上对Cosmos Reason 2-8B模型进行微调和评估。在多项评估指标上,均取得了显著的进步,数据显示了模型在自动驾驶应用领域中有效的领域适应性:

评估指标 初始分数 改进后分数 提升幅度
BLEU分数 0.113 0.125 10.6%
基于MCQ的VQA分数 80.18% 80.85% 0.67个百分点
LingoQA分数 63.2% 77.0% 13.8%

这些数据进一步验证了Cosmos Reason 2在复杂领域数据处理中的卓越能力。

3. 机器人规划与推理

作为机器人视觉语言行动(VLA)模型的核心,Cosmos Reason 2扮演着周密决策的大脑角色。除了确定下一步行动,新版本还能够提供轨迹坐标,使得机器人能够进行更精细、更准确的动作规划。例如,通过向Cosmos Reason 2发出提示,可以获取机器人夹具将油漆胶带移动到篮子中所需的步骤和轨迹的JSON输出,这对于工业自动化、仓储物流等场景具有重要意义。

Encord公司在其数据智能体库和AI数据平台中,为Cosmos Reason 2提供了原生支持,使开发者能够将Cosmos Reason 2作为VLA模型应用于机器人技术及其他实体AI场景。目前,包括日立(Hitachi)、Milestone和VAST Data在内的多家企业,都在利用Cosmos Reason推动机器人技术、自动驾驶以及交通和工作场所安全领域的视频分析AI智能体发展。

开发者可以尝试使用Cosmos Reason 2,通过示例提示生成边界框和机器人轨迹,体验其最新功能。上传自己的视频和图像进行更深入的分析也是可行的。Cosmos Reason 2的20亿和80亿参数模型已可供下载使用,也可通过云端方式体验。预计该模型不久将登陆亚马逊云服务(Amazon Web Services)、谷歌云(Google Cloud)和微软Azure等主要云平台,为全球开发者提供更便捷的访问渠道。

Cosmos 系列其他模型

除了Cosmos Reason 2,英伟达的Cosmos家族还包括一系列旨在推动实体AI发展的前沿模型,共同构建了一个全面的AI生态系统:

  • Cosmos Predict 2.5: 这是一款生成式AI模型,能够根据文本、图像或视频输入,预测物理世界的未来状态并以视频形式呈现。它在质量、准确性和整体一致性方面均在物理AI基准测试中表现领先。该模型每代可生成长达30秒在物理和时间上都保持一致的片段,支持多种帧率和分辨率,并基于2亿个视频片段进行预训练。目前提供20亿和140亿参数的预训练模型,以及多种20亿参数的后训练模型,用于多视角、动作条件控制和自动驾驶训练等,为模拟和预测应用提供了强大的支持。
  • Cosmos Transfer 2.5: 这是英伟达最轻量级的多控制模型,专为视频到世界风格转换而设计。它能够将单一模拟或空间视频的风格扩展到各种环境和光照条件下,同时提升了提示遵循度和物理对齐度。结合英伟达Isaac Sim™或英伟达Omniverse NuRec使用,可实现从模拟到现实的有效转换,这对于虚拟现实、元宇宙以及机器人训练等领域具有重要价值。
  • NVIDIA GR00T N1.6: 作为一款开放的视觉语言行动(VLA)推理模型,NVIDIA GR00T N1.6专为人形机器人量身打造,实现了全身控制能力,并利用英伟达Cosmos Reason提升了推理和上下文理解能力,是推动通用型机器人发展的关键一步。

展望与建议

展望未来,随着Cosmos Reason 2等前沿模型持续突破技术边界,我们有理由相信,实体AI将在工业自动化、智能交通、医疗健康以及日常生活等领域发挥越来越重要的作用。对于中国的跨境从业者而言,密切关注这类技术的发展趋势至关重要。这不仅能帮助我们理解全球科技前沿的脉动,更能为我们在跨境电商、智能制造、智慧物流等多个业务版块中探索创新应用场景、提升效率、构建竞争优势提供宝贵启示。积极拥抱并研究这些新兴技术,或许能为未来的国际合作和市场拓展带来更多可能性,共同推动中国在全球科技创新中的地位。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-cosmos-reason-2-15x-context-boost.html

评论(0)
暂无评论,快来抢沙发~
英伟达发布Cosmos Reason 2,一款前沿的开源视觉语言推理模型,旨在赋能机器人和AI智能体,使其能够像人类一样感知、理解、规划并在物理世界中采取行动。该模型在时空理解、性能、空间理解和长上下文理解能力上实现了显著提升,并在视频分析、数据标注与质检、机器人规划与推理等领域展现出广阔的应用前景。
发布于 2026-01-06
查看人数 72
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。