NVIDIA VSS+RAG：企业视频AI洞察，延迟仅1%！

在数字时代，企业对海量数据的深度挖掘需求日益增长，尤其是来自非结构化信息源如视频的洞察。然而，将视频内容有效整合到现有的生成式人工智能工作流中，面临着数据摄取、索引以及跨源合规性维护等一系列技术挑战。今天，我们将探讨一种集成方案，它通过融合NVIDIA人工智能蓝图（AI Blueprints）中的视频搜索与摘要（VSS）蓝图和检索增强生成（RAG）蓝图，来丰富视频分析能力。通过巧妙组合这些工作流，开发者能够利用值得信赖、情境丰富的企业数据来补充视频理解，从而为关键业务应用解锁更深层次的智能。

这项技术的核心在于其模块化的设计理念，让视频分析不再仅仅停留在表面描述，而是能够与深厚的行业知识、企业规章制度等形成联动。这不仅提升了洞察的准确性，更使其具备了强大的情境感知能力，能够为企业AI应用提供前所未有的支持。

NVIDIA人工智能蓝图：新一代AI应用基石

NVIDIA人工智能蓝图是一套可定制的参考工作流，旨在帮助开发者高效构建生成式AI管线。它为企业构建多模态RAG管线提供了强有力的支持。其中，RAG蓝图依托NVIDIA NeMo Retriever模型，能够持续索引多模态文档，从而在企业规模下实现快速、准确的语义搜索。而VSS蓝图则专注于海量流媒体或存档视频的摄取、搜索、摘要、交互式问答以及事件触发（例如告警）等功能。

简单来说，VSS蓝图是视频智能处理的“眼睛”和“大脑”，能看懂视频内容；RAG蓝图则是企业知识库的“百科全书”，能理解并检索海量文档信息。将两者结合，就像让“眼睛”和“大脑”在看到视频内容的同时，还能迅速查阅相关知识，给出更深刻、更全面的解读。

真实案例：RAG与VSS蓝图赋能智能健康洞察

为了更直观地理解VSS与RAG蓝图的协同效应，我们来看一个实际应用案例。想象一个场景，输入一段用户制作早餐的视频，AI需要分析其饮食习惯，并给出健康建议。

在第一个示例中，AI在没有额外RAG信息辅助的情况下，对视频进行了摘要。其输出内容侧重于关键行动的分类，例如食材选择、烹饪技术、营养见解、卫生习惯和摆盘技巧。这个默认的VSS输出是事实性且描述性的，但它并没有将观察到的活动与具体的营养价值或健康习惯建立联系。它就像一份详细的行动记录，告诉你“做了什么”，但没有告诉你“为什么这么做”或者“这样做有什么意义”。
Figure 1 shows a bullet-point summary of a breakfast video, with categories for ingredient selection, cooking techniques, nutritional insights, hygiene practices, and presentation tips. The entries are factual descriptions of observed actions, such as pouring milk and making oatmeal
图1. 默认VSS蓝图对早餐准备视频的摘要，列出了观察到的行动和基本类别

然而，当视频分析与RAG蓝图集成后，情况就大不相同了。通过与“健康饮食维基页面”这类外部营养知识库的连接，VSS能够根据这些营养指南和最佳实践来添加情境信息。经过RAG增强后的摘要，不仅描述了视频中的行动，还着重强调了选择全谷物的好处、膳食纤维的重要性、乳制品的营养价值以及食品安全中的卫生作用。
A bullet-point summary of the same breakfast video, but with added context from external nutritional sources. The entries include the health benefits of particular foods, the importance of hygiene, and practical advice for making nutritious choices, such as choosing whole grains and highlighting the protein and calcium in milk.
图2. RAG增强后的VSS摘要，将观察到的行动与营养价值和健康习惯联系起来

通过将视频理解与外部知识关联起来，这种增强型摘要能够帮助用户对食物选择和健康习惯做出更明智的决策。它将视频内容转化为实用的洞察，支持日常健康生活——使营养信息对所有人来说都更容易获取和付诸实践。这一案例充分展示了情境化信息如何显著提升AI分析的深度和实用性。

部署与集成：技术细节的简化之道

要部署这样的解决方案，技术人员需要进行一系列的集成操作。这通常涉及下载和部署RAG蓝图，然后克隆视频搜索与摘要的代码库，并对VSS的Dockerfile文件进行必要的修改，以实现与RAG蓝图的无缝集成。

在测试集成效果时，系统通过特定的命令和参数来分析视频。例如，在分析一段用餐准备视频并利用相关营养指南进行信息丰富时，系统会将特定的查询内容（被<e>...<e>标签包围的部分）发送给RAG蓝图。RAG蓝图会检索相关的背景信息，然后将这些信息插入到可调谐的VECTOR_RAG_ENRICHMENT_PROMPT中，在大型语言模型（LLM）生成最终响应之前，完成信息的融合与增强。

这些步骤虽然涉及技术细节，但对于开发者而言，NVIDIA提供的蓝图和指引极大地简化了集成过程，让更多精力可以集中在业务逻辑和应用创新上。

核心机制：RAG与VSS的协同工作模式

这一强大功能的背后，是VSS和RAG蓝图紧密协作的机制：

数据摄取

VSS负责摄取视频流，从中生成字幕片段，并索引视觉元数据。与此同时，RAG则摄取各种专属文档，如操作手册、历史事件统计数据和媒体指南等，并将其存储在GPU加速的向量数据库中。

查询流程

当用户提出一个问题，例如“我今天吃得健康吗？”，VSS会首先找出视频中与用户用餐相关的候选片段。同时，VSS也会向RAG服务器发起查询，以获取来自各种健康指南中相关的专业知识。

知识融合

RAG蓝图在接收到查询后，会检索出相关的企业健康知识，并将这些信息提供给VSS的LLM。LLM结合视频中的候选片段和RAG提供的知识，来构建一个有根据的回答。

最终响应

最终，系统向用户呈现的响应是基于视频数据，并由相关外部知识进行丰富和支撑的。这个响应实时送达，并提供适当的引用来源，确保信息的准确性和可追溯性。

VSS与RAG蓝图集成架构：模块化与可扩展性

图3展示了实现这些成果的模块化集成架构。VSS负责摄取视频流、生成字幕和元数据，并支持对视频内容的问答和摘要。RAG蓝图则作为一个独立的微服务部署，负责索引、搜索和检索来自企业内部数据源（如文本文档、PDF、表格和政策手册）的知识。

VSS和RAG蓝图之间通过明确定义的API进行通信。当提示中包含<e>...<e>标签内的文本时，VSS蓝图会将该子提示发送给外部RAG服务器。RAG蓝图接收子提示并返回相关的上下文信息。VSS蓝图利用一个可定制的增强提示，将检索到的上下文融合到最终的摘要或聊天问答响应中。这种模块化、基于API的集成方式使得这两个蓝图可以单独或协同使用，并根据用户需求独立扩展。
Architecture diagram showing the integration of VSS and RAG Blueprints. Detailing the connection of the video analysis pipeline to the external RAG service, emphasizing modular composability and separate microservices.
图3. VSS和RAG蓝图解决方案的架构图

工作流连接：可组合AI蓝图如何支持协作

通过组合多个NVIDIA人工智能蓝图，开发者可以集成专业的管线——例如视频分析和企业级检索——来解决跨职能挑战。这种模块化可组合性在加速开发的同时，将功能扩展到单一蓝图无法企及的范畴。

让我们详细了解可组合性如何带来灵活集成、跨职能协作以及情境感知的结果：

灵活集成： 结合专业蓝图，如VSS用于视频处理，RAG用于知识检索，能够构建定制化、可扩展的解决方案。
跨职能协作： 不同的蓝图促进了视频工程师、数据科学家和领域专家之间的合作，用企业知识丰富视频分析，形成更全面的洞察。
情境感知结果： VSS蓝图中的用户查询可以利用RAG蓝图，用组织文档中的相关信息补充视频摘要，提供精准、可操作的见解。

VSS蓝图处理视频流以进行检测和字幕生成，而RAG蓝图则从文本和结构化数据源检索相关信息。发送给VSS蓝图的用户查询可以转发给RAG蓝图以获取额外的上下文，最终的组合响应将包含视频分析和企业知识。

为企业工作流优化：专用RAG的价值

将RAG蓝图作为一个独立的服务器而不是将所有数据源（如视频和文档）合并，是一个关键的架构决策，这主要基于以下几个实际因素：

多工作流支持： RAG蓝图作为一个统一的知识层，可以服务于多种工作流，例如搜索门户、聊天机器人、仪表板和合规工具等。VSS蓝图只是众多访问该后端服务的客户端之一。
解耦扩展： 这两个蓝图可以独立扩展和优化，从而实现视频和文档工作负载的针对性资源分配，提高了系统的灵活性和效率。
快速创新与安全： 集中式的RAG管理简化了更新、修补和安全改进，且不影响VSS的部署，确保了系统的稳定性和安全性。
最小集成开销： VSS集成仅需要RAG服务器的端点和相应的环境变量，无需为新的用例重新构建或重新索引视频数据，大大降低了集成成本和复杂性。

值得注意的是，VSS蓝图本身也具备RAG能力，但其管线高度专注于视频搜索和检索的准确性。同样，RAG蓝图也支持与VSS蓝图相似的多种模态，但它更擅长搜索和检索包含文本、表格和图表的多种语言、多模态商业文档（如PDF）。通过API调用将这两个管线松散耦合，为开发者在两个高度专业化的管线之间提供了“两全其美”的体验。

延迟影响：效率与智能的平衡

我们还评估了结合这些蓝图进行视频摘要和问答对系统性能的影响。总延迟包含VSS操作时间、RAG操作时间以及结果整合时间。

在实际使用中，聊天问答场景中RAG输入的增加仅占整体延迟的约10%。而通过RAG数据丰富视频摘要，对整体管线延迟的影响更小，仅约为1%。这表明RAG的引入并不会显著增加系统的处理时间，从而确保了高效的实时响应能力。
Bar chart displaying runtime percentages for each system component in the VSS and Enterprise RAG pipeline. The chart shows VSS as the largest portion, with smaller shares for Enterprise RAG and LLM Fusion.
图4. VSS和RAG蓝图各组件的运行时百分比

下表详细列出了VSS和企业RAG可组合蓝图在不同管线阶段的预期系统运行时间：

管线阶段	VSS摘要延迟（秒）	VSS聊天问答延迟（秒）
RAG检索	1.69	1.81
LLM融合	1.24	1.35
端到端总延迟	250	29.77
VSS摘要/聊天问答（主要任务）	247.07	26.61

表1. VSS和企业RAG可组合蓝图各管线的预期系统运行时间

行业应用案例：赋能智能决策

从建筑工地到广袤森林，再到体育场馆，VSS和RAG蓝图通过提示融合（prompt fusion）实现集成，将原始视频转化为有价值、情境丰富的洞察，且不会引入额外的延迟。以下案例突显了这项集成技术如何帮助解决现实世界的挑战：

建筑行业： 日本清水建设（Shimizu）在建筑工地部署这项技术，流式传输工地录像，监控开发进度，预防不安全行为，并提高安全性和合规性。
林业管理： Cloudian的HyperScale AIDP林业管理演示部署了VSS和RAG蓝图，用于检测过度生长和入侵物种，并即时检索相关政策文档，生成可操作的报告，以满足火灾保险和合规性要求。例如，对森林视频进行评估时，它能够识别倒下的树木、茂密的植被和土路，并结合美国土地管理局（BLM）的荒野库存标准，指出发现的入侵物种，极大地提升了林业管理的精细化水平。
体育媒体： Monks公司利用该解决方案快速生成个性化的体育精彩集锦，将庞大的内容库转化为为社交媒体和广播平台量身定制、引人入胜的片段。

图5. Cloudian VSS + RAG蓝图基于土地管理局的林业评估