NVIDIA全球会议实时语音分辨!实时追踪精准升级
实时识别会议、通话和语音应用中的发言者,借助NVIDIA Streaming Sortformer
在任何会议、通话、拥挤的房间或语音应用中,技术面临一个核心问题:谁在说话,以及何时说话?对此,实时转录在过去几十年间几乎无法实现,除非使用专门设备或线下批处理。NVIDIA Streaming Sortformer改变了这一局面。作为一款开放、生产级的语音分离模型,它在实际的多发言者场景中设计为低延迟,并与NVIDIA NeMo和NVIDIA Riva集成。可以将其嵌入转录管道、实时语音助手协调或企业会议分析中。
主要能力
NVIDIA Streaming Sortformer具备以下关键能力,使其在多种实时应用中成为强大且灵活的解决方案:
- 帧级语音分离并附上标签(例如,spk_0、spk_1)。
- 为每个标记的发言提供精确的时间戳。
- 具备对2至4名或更多发言者的稳定追踪能力,几乎无延迟。
- 高效GPU推断,适用于NeMo和Riva工作流程。
- 虽然优化了英文,但在中文会议数据和4发言者CALLHOME非英文集(低DER)上成功测试,展现出跨语言的强大性能。
基准测试结果
NVIDIA Streaming Sortformer在语音分离错误率(DER)方面的表现如何,DER数值越低越好。
在三种不同延迟设置下的Flowting Sortformer DER(数据来源)。所比较的流式语音分离系统包括EEND-GLA(Horiguchi等,2022年)和LS-EEND(Liang & Li,2024年),这是解决在线发言者跟踪问题的两种神经语音分离方法。
应用场景示例
NVIDIA Streaming Sortformer在各种实时多发言者情况下提供了实际解决方案,包括:
- 会议和生产力:实时、标注发言者的转录和次日总结。
- 联系中心:为质量保证或合规性分离代理/客户语音流。
- 语音助手及AI助手:更自然的对话、正确的轮流发言和身份追踪。
- 媒体和广播:自动标记用于编辑和审核。
- 企业和合规性:可审核的、发言者解决的记录,以满足监管需求。
查看以下演示。
视频1. 多发言餐厅点餐场景的演示
架构及内部原理
Streaming Sortformer是一个语音分离模型,独特地根据发言者在录音中首次出现的时间进行排序。其核心是一个编码器,首先使用一个卷积预编码模块处理并压缩原始音频,然后将其馈送至一系列构建和转换模块,它们共同协作分析对话上下文并排序发言者。
为了处理实时音频,Streaming Sortformer以小块、重叠的片段处理声音。它使用一个巧妙的到达顺序发言者缓存(AOSC)来跟踪前面音频流中检测到的所有发言者。这使得模型能够将当前片段中的发言者与前一个片段进行比较,从而确保在整个声音流中始终用同一标签识别某个人。这使实时、多发言者跟踪变得实用且准确。
负责任的AI、局限性及下一步
以下是需要注意的边界和最佳实践:
- 设计用于最多四名发言者的对话场景。在超过四名发言者的情况下,由于模型目前无法生成超过四个输出,性能会下降。
- 优化英文,但可以用于其他语言,如汉语。为了获得特定领域或语言的最佳性能,建议进行细调。
- 实际测试确认模型能够抵御交叠情况,但非常快速的轮换或严重的跨频干扰可能仍然挑战准确性。
未来计划包括:
- 扩展到更多发言者数量。
- 改进各种语言和挑战性声学条件下的性能。
- 与Riva和NeMo代理/语音助手管道的全面集成
结论
通过Streaming Sortformer,开发人员和组织可获得开放、实时的语音分离解决方案,用于语音使能的多发言者应用场景,不仅仅在研究中,而是真实生产环境中。
准备好创建了吗?
从Hugging Face下载、部署或测试Streaming Sortformer。
查看支持矩阵。
尝试支持NVIDIA AI企业版的NVIDIA Riva NIM进行自动语音识别、文本转语音和翻译。
如有问题或寻求帮助,请访问NeMo GitHub、Riva教程或Riva开发者论坛。
深入了解技术细节及Streaming Sortformer的背景,请查看最新发布在arXiv上的研究文章“离线Sortformer”。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)