AI语音大爆发!MiniMax登顶双榜,资本狂砸1.1亿美金

2025-06-06AI工具

Image

还记得年初我们测试《甄嬛传》配音时,AI语音那副"莫得感情"的样子吗?当时各家的情感表现实在让人摇头。不过最近圈子里动静不小——

新媒网跨境获悉,MiniMax的Speech-02-HD在四五月接连登顶两大权威榜单,错字率和音色还原度都甩开同行一截。更热闹的是资本动向:Cartesia三月拿下6400万美金,Hume紧随其后融资5000万,连亚马逊、谷歌都带着Nova Sonic和Veo3杀入战局。

图片

技术指标刷得飞起,实际用起来怎么样?我们干脆把实验室搬到真实战场:直播带货、语音陪伴、有声书三大场景,揪出五款热门模型(MiniMax Speech-02-HD、阿里CosyVoice2、智声悦合Dubbing X、ElevenLabs和Sesame)硬碰硬测试。这次不玩虚的,情感标签该贴就贴,评委打分该狠就狠。


中文有声书:愤怒值拉满时谁扛得住?

上次测《甄嬛传》就发现,AI们演高兴勉强过关,碰到愤怒悲伤直接垮掉。这次直接上狠活——用"林冲雪夜杀人"和"武松哭坟"的经典段落虐机。当林教头吼出"今日便与你拼了",MiniMax和Dubbing X居然真吼出了层层递进的暴怒感,虽然比真人还差口气,至少能用了。倒是阿里的CosyVoice2,愤怒值还没到及格线。

更绝的是武松哭兄的复合情绪。前半段悲怆,后半段悲愤交加,Dubbing X竟成了唯一及格的选手。秘密藏在细节里:别家情感标签只有"悲伤""愤怒"这种大分类,Dubbing X却细分出二十多种小情绪。碰上复杂戏码,就像专业演员拿到了分镜头脚本。

英文有声书:复仇宣言念成白开水

轮到《基督山伯爵》那段著名的复仇独白,场面有点难堪。三款英文模型念"十四年地牢煎熬"本该字字泣血,实际效果却像念超市小票。ElevenLabs和Sesame连基础情感都没达标——毕竟连情感调节按钮都没有,全靠抽象的参数滑块碰运气。后来翻到某YouTuber调教ElevenLabs的成品,证明不是模型不行,是普通用户根本玩不转这些隐形机关。

直播带货:激情有余,人味不足

"姐妹们闭眼入!39块还送正装!"这句经典话术可把AI们坑惨了。三款模型情感浓度倒是够,可惜全是机械式嘶吼。评委原话:"像打了鸡血的Siri,没有真人主播那种呼吸感。"明明每个字都在促销,组合起来就是让人不想下单。新媒网跨境观察到,当下AI语音最难模仿的,其实是人类语言中那些微妙的停顿和气息转换。

AI陪伴:终于摸到及格线

"失去重要的人会心碎,但你不是一个人..."这段疗愈台词意外成了发挥最稳的环节。虽然还能听出电子质感,但温暖包容的情绪基本传达到了。看来AI哄人确实比卖货容易些,毕竟这里要的不是戏剧张力,而是平稳的情绪托底。


测完一圈,最深的感受是:AI语音在开卷考试里能拿高分,闭卷实战立刻露怯。给个明确标签就演好单一情绪,碰到复合场景或特殊节奏需求,马上手足无措。新媒网跨境建议从业者学学Dubbing X的思路——别贪多求全,先吃透垂直场景。就像我们咨询的某AI陪伴产品总监透露的秘诀:他们会预设十几套情绪模板,用户输入时先做情感分析,再匹配对应的声音参数组合。这哪是简单调用API?根本是给每句话做情绪手术。

如今B端市场已经跑出不少案例,比如带情感交互的Maya语音助手,或是卖疯了的BubblePal陪伴机器人。但C端用户想随手调教出有灵魂的声音?还早得很。技术指标再漂亮,终究要回到那个老问题:什么时候AI说"心疼你"时,能让人真的心头一颤?

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网(https://nmedialink.com/posts/2884.html)

评论(0)

暂无评论,快来抢沙发~
文章评测了MiniMax、阿里等五款AI语音模型在直播带货、有声书等场景的表现,指出其在单一情感表现尚可但复合情绪处理不足,并探讨了技术突破与商业应用现状。
发布于 2025-06-06
查看人数 1781
人民币汇率走势
CNY
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。