NVIDIA全球会议实时语音分辨!实时追踪精准升级

实时识别会议、通话和语音应用中的发言者，借助NVIDIA Streaming Sortformer

在任何会议、通话、拥挤的房间或语音应用中，技术面临一个核心问题：谁在说话，以及何时说话？对此，实时转录在过去几十年间几乎无法实现，除非使用专门设备或线下批处理。NVIDIA Streaming Sortformer改变了这一局面。作为一款开放、生产级的语音分离模型，它在实际的多发言者场景中设计为低延迟，并与NVIDIA NeMo和NVIDIA Riva集成。可以将其嵌入转录管道、实时语音助手协调或企业会议分析中。

主要能力

NVIDIA Streaming Sortformer具备以下关键能力，使其在多种实时应用中成为强大且灵活的解决方案：

帧级语音分离并附上标签（例如，spk_0、spk_1）。
为每个标记的发言提供精确的时间戳。
具备对2至4名或更多发言者的稳定追踪能力，几乎无延迟。
高效GPU推断，适用于NeMo和Riva工作流程。
虽然优化了英文，但在中文会议数据和4发言者CALLHOME非英文集（低DER）上成功测试，展现出跨语言的强大性能。

基准测试结果

NVIDIA Streaming Sortformer在语音分离错误率（DER）方面的表现如何，DER数值越低越好。
A bar graph showing streaming diarization error rates compared with the other published results.

在三种不同延迟设置下的Flowting Sortformer DER（数据来源）。所比较的流式语音分离系统包括EEND-GLA（Horiguchi等，2022年）和LS-EEND（Liang & Li，2024年），这是解决在线发言者跟踪问题的两种神经语音分离方法。

应用场景示例

NVIDIA Streaming Sortformer在各种实时多发言者情况下提供了实际解决方案，包括：

会议和生产力：实时、标注发言者的转录和次日总结。
联系中心：为质量保证或合规性分离代理/客户语音流。
语音助手及AI助手：更自然的对话、正确的轮流发言和身份追踪。
媒体和广播：自动标记用于编辑和审核。
企业和合规性：可审核的、发言者解决的记录，以满足监管需求。

查看以下演示。

视频1. 多发言餐厅点餐场景的演示

架构及内部原理

Streaming Sortformer是一个语音分离模型，独特地根据发言者在录音中首次出现的时间进行排序。其核心是一个编码器，首先使用一个卷积预编码模块处理并压缩原始音频，然后将其馈送至一系列构建和转换模块，它们共同协作分析对话上下文并排序发言者。
Diagram of the Sortformer model architecture.

为了处理实时音频，Streaming Sortformer以小块、重叠的片段处理声音。它使用一个巧妙的到达顺序发言者缓存（AOSC）来跟踪前面音频流中检测到的所有发言者。这使得模型能够将当前片段中的发言者与前一个片段进行比较，从而确保在整个声音流中始终用同一标签识别某个人。这使实时、多发言者跟踪变得实用且准确。
Visualization of Streaming Sortformer’s chunk-wise processing using an Arrival-Order Speaker Cache (AOSC), FIFO queue, and input buffer.
Diagram illustrating the step-by-step dataflow of Streaming Sortformer inference.