NVIDIA全球会议实时语音分辨!实时追踪精准升级

2025-08-19人工智能

Image

实时识别会议、通话和语音应用中的发言者,借助NVIDIA Streaming Sortformer

在任何会议、通话、拥挤的房间或语音应用中,技术面临一个核心问题:谁在说话,以及何时说话?对此,实时转录在过去几十年间几乎无法实现,除非使用专门设备或线下批处理。NVIDIA Streaming Sortformer改变了这一局面。作为一款开放、生产级的语音分离模型,它在实际的多发言者场景中设计为低延迟,并与NVIDIA NeMo和NVIDIA Riva集成。可以将其嵌入转录管道、实时语音助手协调或企业会议分析中。

主要能力

NVIDIA Streaming Sortformer具备以下关键能力,使其在多种实时应用中成为强大且灵活的解决方案:

  • 帧级语音分离并附上标签(例如,spk_0、spk_1)。
  • 为每个标记的发言提供精确的时间戳。
  • 具备对2至4名或更多发言者的稳定追踪能力,几乎无延迟。
  • 高效GPU推断,适用于NeMo和Riva工作流程。
  • 虽然优化了英文,但在中文会议数据和4发言者CALLHOME非英文集(低DER)上成功测试,展现出跨语言的强大性能。

基准测试结果

NVIDIA Streaming Sortformer在语音分离错误率(DER)方面的表现如何,DER数值越低越好。
A bar graph showing streaming diarization error rates compared with the other published results.

在三种不同延迟设置下的Flowting Sortformer DER(数据来源)。所比较的流式语音分离系统包括EEND-GLA(Horiguchi等,2022年)和LS-EEND(Liang & Li,2024年),这是解决在线发言者跟踪问题的两种神经语音分离方法。

应用场景示例

NVIDIA Streaming Sortformer在各种实时多发言者情况下提供了实际解决方案,包括:

  • 会议和生产力:实时、标注发言者的转录和次日总结。
  • 联系中心:为质量保证或合规性分离代理/客户语音流。
  • 语音助手及AI助手:更自然的对话、正确的轮流发言和身份追踪。
  • 媒体和广播:自动标记用于编辑和审核。
  • 企业和合规性:可审核的、发言者解决的记录,以满足监管需求。

查看以下演示。

视频1. 多发言餐厅点餐场景的演示

架构及内部原理

Streaming Sortformer是一个语音分离模型,独特地根据发言者在录音中首次出现的时间进行排序。其核心是一个编码器,首先使用一个卷积预编码模块处理并压缩原始音频,然后将其馈送至一系列构建和转换模块,它们共同协作分析对话上下文并排序发言者。
Diagram of the Sortformer model architecture.

为了处理实时音频,Streaming Sortformer以小块、重叠的片段处理声音。它使用一个巧妙的到达顺序发言者缓存(AOSC)来跟踪前面音频流中检测到的所有发言者。这使得模型能够将当前片段中的发言者与前一个片段进行比较,从而确保在整个声音流中始终用同一标签识别某个人。这使实时、多发言者跟踪变得实用且准确。
Visualization of Streaming Sortformer’s chunk-wise processing using an Arrival-Order Speaker Cache (AOSC), FIFO queue, and input buffer.
Diagram illustrating the step-by-step dataflow of Streaming Sortformer inference.

负责任的AI、局限性及下一步

以下是需要注意的边界和最佳实践:

  • 设计用于最多四名发言者的对话场景。在超过四名发言者的情况下,由于模型目前无法生成超过四个输出,性能会下降。
  • 优化英文,但可以用于其他语言,如汉语。为了获得特定领域或语言的最佳性能,建议进行细调。
  • 实际测试确认模型能够抵御交叠情况,但非常快速的轮换或严重的跨频干扰可能仍然挑战准确性。

未来计划包括:

  • 扩展到更多发言者数量。
  • 改进各种语言和挑战性声学条件下的性能。
  • 与Riva和NeMo代理/语音助手管道的全面集成

结论

通过Streaming Sortformer,开发人员和组织可获得开放、实时的语音分离解决方案,用于语音使能的多发言者应用场景,不仅仅在研究中,而是真实生产环境中。

准备好创建了吗?

从Hugging Face下载、部署或测试Streaming Sortformer。

查看支持矩阵。

尝试支持NVIDIA AI企业版的NVIDIA Riva NIM进行自动语音识别、文本转语音和翻译。

如有问题或寻求帮助,请访问NeMo GitHub、Riva教程或Riva开发者论坛。

深入了解技术细节及Streaming Sortformer的背景,请查看最新发布在arXiv上的研究文章“离线Sortformer”。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/16304.html

评论(0)

暂无评论,快来抢沙发~
NVIDIA推出Streaming Sortformer,一款开放、生产级的语音分离模型,可在会议、通话等场景中实时识别发言者。该模型延迟低,与NVIDIA NeMo和Riva集成,具备帧级语音分离、精确时间戳等能力,适用于会议转录、语音助手、媒体编辑等应用。
发布于 2025-08-19
查看人数 762
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。