搞定VSS智能视频分析：10分钟部署→成本直降50%！

各位跨境实战精英们，大家好！作为大家的资深导师，今天我们不聊虚的，直接来一场关于人工智能前沿技术在视频分析领域实战应用的技术拆解。新媒网跨境获悉，当前全球AI技术日新月异，尤其是在视觉与语言结合上，正为我们开启全新的商业洞察大门。过去我们可能只满足于简单地数数画面里的物体，而现在，AI能将海量的视频素材，实时转化为可执行的商业智慧，这才是真正的价值所在。

英伟达（NVIDIA）的视频搜索与摘要（VSS）AI蓝图，就是这样一个集大成者。它巧妙地融合了视觉语言模型（VLMs）、大型语言模型（LLMs）以及检索增强生成（RAG）技术，并对视频的摄取、检索和存储流程做了深度优化。作为英伟达Metropolis平台的重要组成部分，它既能处理已存储的视频数据，也能实现实时视频的智能理解。

在之前的版本中，VSS蓝图已经展现了高效视频摄取、语境感知RAG、计算机视觉（CV）管道和音频转录等核心能力。如果大家对这些基础功能感兴趣，可以回顾之前的文章。今天，我们将聚焦最新VSS蓝图2.4版本的四大重磅升级，这些新特性将帮助开发者们：

提升物理世界理解能力： VSS现已深度集成英伟达Cosmos Reason。这款领先的推理型视觉语言模型，能为视频分析提供更高级别的物理AI推理和场景理解，从而产出更丰富、更深刻的洞察。
增强问答体验： 新增的知识图谱功能和跨摄像头支持，实现了多流视频的智能问答，并改进了知识图谱的生成方式。其代理（agentic）式图遍历功能，还支持Neo4J和ArangoDB数据库，并利用cuGraph技术进行加速。
在边缘侧释放生成式AI潜力： 引入事件审核器功能，能够对计算机视觉管道发现的重点事件进行审核，并利用生成式AI提供情境洞察。新接口使得VSS能够作为现有CV管道的智能增强模块，尤其适用于低延迟的边缘部署场景。
拓展硬件部署支持： VSS现已支持基于英伟达Blackwell架构的多种平台，包括英伟达Jetson Thor、英伟达DGX Spark以及英伟达RTX Pro 6000工作站和服务器版本。

一、用Cosmos Reason提升物理世界理解

Cosmos Reason是一款开放、可定制，拥有70亿参数的尖端推理型视觉语言模型，专为物理AI设计。它让视觉AI代理能够像人类一样，运用先验知识、物理理解和常识来理解和感知真实世界，并在此基础上采取行动。有了Cosmos Reason，开发者们能够构建出真正能“看”、能“分析”、甚至能“行动”的AI代理，无论面对的是海量的历史视频，还是数百万个实时视频流，都能游刃有余。

值得一提的是，Cosmos Reason NIM也已同步推出，这提供了一个生产就绪的视觉语言模型端点，助力我们快速、可扩展地构建智能视觉AI代理。
图片说明

视频1. 了解推理型视觉语言模型驱动的视觉AI代理的四大应用场景。

VSS蓝图2.4版本构建的视频分析AI代理，能够利用Cosmos Reason的力量，从制造产线、物流仓库、零售门店、交通网络等多个行业场景的视频素材中，提取出精准且丰富的密集描述，通过设置标记提示（mark prompting）枚举出感兴趣的物体，提供有价值的洞察，甚至进行根本原因分析。

VSS 2.4版本与Cosmos Reason实现了原生集成，这意味着视频摄取流程与视觉语言模型紧密耦合，能够实现高效的批处理和速度提升，这是基于REST API的视觉语言模型接口无法比拟的优势。此外，Cosmos Reason小巧的70亿参数体量，使其在边缘部署和云端部署时都非常方便。它还完全支持定制化，可以利用企业的专属数据进行微调，打造出符合自身业务需求的专属智能。

二、通过知识图谱和跨摄像头支持增强问答

面对海量的视频数据，摄取本身就是一大挑战。因为视频数据是非结构化、连续且体量庞大的，这使得高效搜索、索引或摘要变得异常困难。一段视频可能长达数小时，包含多个同时发生的事件，仅仅是解码和分析就需要大量的计算资源。传统的计算机视觉管道往往难以大规模应对，它们通常只能生成孤立的检测结果，却缺乏理解事件全貌所需的更广阔背景。

VSS正是为了解决这些痛点而生，它采用GPU加速的视频摄取管道。当视频文件或实时流进入时，会被分解成更小的片段，然后Cosmos Reason视觉语言模型会为每个片段生成丰富的描述或标题。接着，大型语言模型会从视觉语言模型生成的描述中提取必要信息，构建一个能够捕捉视频重要细节的知识图谱。一旦知识图谱构建完成，大型语言模型就能遍历图谱，回答用户对视频的各种问题。
Architecture diagram showing the main components and data flow of VSS.

图1. VSS的核心构建模块，包括摄取和检索管道

VSS 2.4版本通过以下几项重大改进，进一步提升了问答的准确性和跨摄像头理解能力：

知识图谱中的实体去重： 避免冗余信息，让图谱更精炼。
代理（Agent）式图遍历： 让AI能更智能地探索图谱，找到答案。
CUDA加速图数据库： 提升知识图谱处理效率。

在VSS蓝图的早期版本中，构建知识图谱时可能会出现重复的节点和边。但在VSS蓝图2.4中，我们新增了知识图谱后处理功能，可以移除所有重复的条目，并合并跨视频通用的节点和边。这意味着像同一辆车穿过多个摄像头这样的常见实体，现在会被合并成一个单一实体，这大大提高了VSS理解独特物体在视频中和跨摄像头移动的能力。

知识图谱生成并经过后处理后，大型语言模型会开始遍历图谱，收集必要的信息来回答用户对视频提出的问题。

在VSS 2.4中，我们引入了基于代理的推理机制，用于更高级的知识图谱检索。如果启用此功能，一个基于大型语言模型的代理将智能地分解用户的问题，然后使用一系列工具来搜索图谱、查找相关元数据、重新检查视频中的采样帧，并在必要时进行迭代，以准确回答用户的问题。新媒网跨境认为，这项改进对于提升问答精准度，尤其是复杂场景下的理解，有着举足轻重的意义。
An image showing two knowledge graphs side by side. The left knowledge graph has many duplicate nodes and edges. The right side is a slimmed down version of the graph after the deduplication process.

图2. VSS知识图谱去重功能，有效消除图谱中的冗余数据，提升问答准确性

VSS蓝图版本	2.3.1	2.4
准确率提升	基础	显著提升

表1. VSS蓝图从2.3.1版到2.4版的准确性提升情况。

现在，利用知识图谱后处理来合并实体和关系，结合先进的代理式检索机制，我们已经能够实现跨多个摄像头视频流的智能问答。
Screenshot showing an example of a VSS Blueprint multi-stream Q&A.

图3. VSS蓝图能够回答关联多个输入摄像头视频流信息的复杂问题。

为了给开发者提供最前沿的工具，我们还扩展了对图数据库后端的支持，现在已包含ArangoDB。用户可以根据自己的需求，配置VSS使用Neo4J或ArangoDB图数据库后端。ArangoDB带来了一系列增强功能，包括CUDA加速的图函数，能够显著加速知识图谱的生成过程。

这些新的知识图谱生成和代理式问答功能，最适用于多GPU部署环境，这样才能更好地处理大型语言模型和多个并发的视觉语言模型请求。

三、利用VSS事件审核器增强计算机视觉管道

对于小型化和边缘部署场景，我们引入了全新的VSS事件审核器功能。它提供了API接口，可以轻松地将VSS集成到现有的计算机视觉管道中，实现低延迟警报以及针对视频片段的直接视觉语言模型问答。

与持续对所有文件或流运行VSS不同，事件审核器允许VSS作为智能附加模块，仅在关键时刻提供视觉语言模型洞察。这种方法极大地降低了计算成本，使得VSS非常适合轻量级部署和边缘平台。

虽然标准的计算机视觉管道在检测物体、人物或应用分析识别事件（例如可能的车辆碰撞）方面表现出色，但它们往往会产生误报，并且缺乏更深层次的场景理解。VSS可以作为增强这些计算机视觉管道的利器，通过分析由计算机视觉系统标记的短视频片段，审核检测到的事件，并发现传统方法可能遗漏的额外洞察。

图4展示了VSS如何增强现有管道。计算机视觉管道代表任何能够接收视频文件或流并输出感兴趣的短片段的专有系统。然后，可以调用事件审核器接口，将这些短视频片段传递给VSS，以生成警报并跟进视觉语言模型问答。
Architecture diagram starting with camera stream input to the Computer Vision pipeline that filters events and sends them to VSS. VSS Event Reviewer feature then provides further analysis for that event clip.

图4. VSS事件审核器参考工作流的高级架构，展示了VSS感知管道如何增强现有计算机视觉管道。

为了演示这项功能，我们还在VSS的GitHub仓库中提供了一个使用GroundingDINO的DeepStream检测管道示例。这个示例管道摄取视频，运行检测，然后当检测到的物体数量超过设定的阈值时输出视频片段。这个管道的目的是从视频中找到最需要由VSS与视觉语言模型进行检查的重要事件。

接着，VSS将使用视觉语言模型处理每个小片段，回答用户定义的一系列“是/否”问题。这些回答会被转换为每个问题的“真/假”状态，并可用于向用户生成低延迟警报。一旦VSS处理完短片段，你还可以提出更详细的后续问题。
图片说明

视频2. 观看基于VSS事件审核器参考工作流的演示。

这种方法巧妙地只在轻量级检测管道确定的“感兴趣”片段上使用视觉语言模型，从而显著降低了计算成本，释放了GPU资源用于其他工作负载。对于我们国内众多追求降本增效的企业来说，这无疑是极具吸引力的解决方案。

四、通过更广泛的硬件支持灵活部署

VSS蓝图2.4版本全面支持多款英伟达Blackwell平台，包括英伟达RTX Pro 6000服务器和工作站版本，以及用于边缘部署的英伟达Jetson Thor。对英伟达DGX Spark的支持也将很快到来。

平台	VSS蓝图2.4支持
英伟达Blackwell平台	✅
英伟达RTX Pro 6000	✅
英伟达Jetson Thor	✅
英伟达DGX Spark	即将推出

表2. VSS蓝图2.4对英伟达Blackwell平台和用于边缘部署的英伟达Jetson Thor的支持情况。

关于完整支持的平台列表，大家可以参考VSS文档的“支持平台”部分。

开启你的视觉智能代理之旅

VSS蓝图2.4新版本的发布，为边缘侧带来了全新的视觉智能代理能力，同时提升了问答的准确性、实现了跨摄像头的理解，并扩展了平台支持范围。知识图谱创建和遍历的增强，不仅提高了问答精度，还使得跨摄像头查询成为可能。

对于边缘部署和警报用例，事件审核器功能提供了一种将VSS作为计算机视觉管道智能附加模块的方式，能够实现低延迟警报。同时，平台支持范围也已扩展到包含英伟达RTX Pro和英伟达Jetson Thor。

想要快速上手VSS蓝图？建议大家使用英伟达Brev Launchable。它能提供一键快速部署，并提供Jupyter Notebooks来指导你如何启动VSS、访问Web UI以及使用VSS REST API。更多技术资源，如训练Notebooks和参考代码，请访问英伟达-AI-Blueprints/视频搜索和摘要GitHub仓库。若有更多技术问题，可以前往英伟达开发者论坛寻求帮助。

至于生产部署和云服务提供商（CSP）的详细信息，请查阅VSS文档的“云”部分。新媒网跨境预测，未来更多智能体应用将从这里起步，赋能各行各业。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/vss-ai-video-10min-deploy-50-cost-cut.html