00后小伙创业AI语音,营收飙至400万美元!
电话录音机、语音助手、虚拟主播……语音技术一路走来,从冷冰冰的工具,渐渐有了温度。大模型的爆发,更让这场变革加速狂奔——人们不再满足于机器能“听懂字”,更渴望它能“听懂心”。情感语音合成、语音驱动角色,新玩法层出不穷。新媒网跨境观察到,AI正让语音技术脱胎换骨,从幕后配音工,跃升为交互的核心入口,甚至是情感表达的载体。
技术狂奔的背后,一个现实问题浮出水面:模型迭代飞快,可真正戳中用户心窝的应用场景在哪?语音陪伴,这片看似热闹的蓝海,实则暗礁密布。它不仅要机器“懂人心”,更要建立起一种近乎本能的信任感——这恰恰是最难啃的骨头。
最近,我们和Hanabi AI的创始人冷月聊了聊。这位00后小伙背景挺“硬核”:前英伟达研究员,深耕开源多年。他一手打造的Fish Audio,玩的是多语言文本转语音和高精度声音克隆。短短几个月,营收从0冲到400万美元,成了AI语音圈里的当红炸子鸡。这次对话,冷月聊了创业初心、技术底牌、团队基因,还有他对AI语音未来的大胆想象。一起来听听。
ZP:先聊聊你自己吧,求学、工作这些经历,怎么塑造了今天的你?
冷月:2023年从马里兰大学毕业后,我进了英伟达,搞Vision Foundation Model研究,特别是语言模型这块儿。那会儿学到了真东西——怎么在超大规模集群上搞训练推理,怎么清洗海量数据。团队还啃下了英伟达内部十亿级图像数据的抓取和模型训练。去年7月,我辞职了,All in创办Hanabi AI,核心产品就是Fish Audio。
其实开源这事儿,我起步很早。父母都搞软件,小学摸代码,高中就玩开源做图像识别。还接过些小单子,一年能赚二三十万美金,现在的几位核心工程师,就是那时结识的老搭档,有两位一直跟我干到现在。
高中在广州外国语学校读完,去了美国马里兰大学学计算机。说实话,本科课程对我有点“吃不饱”,精力就更多投给了开源。三年前,语音合成和克隆突然抓住了我。我是个二次元,爱看番、追虚拟主播,和朋友琢磨怎么克隆动漫角色的声音。一群人扎进去,参与开源了So-VITS-SVC,还给GPT-SoVITS的早期版本供过训练资源。算力吃紧?家里那几块4090显卡就是我们的“矿机”。
从粗糙的变声器起步,我们总想着怎么让声音更自然、更有情绪。这逼着我们搞出了结合语义的小型语言模型,像Bert-VITS2。预算紧巴巴,资源捉襟见肘,硬是撞出些名堂。
两年前,我栽了个大跟头。相恋六七年的女友,绿了我。这事儿像根刺,扎得我开始怀疑:人和人的联结,真的可靠吗?反观AI,在开源模型和权重的保障下,它没有背叛的动机,反而可能成为更稳定的陪伴。2023年,一个念头疯长:能不能造个真正的AI陪伴?虚拟恋人、赛博父母……都行。
那时,语言模型有点样子了,语音合成却弱得很。市面上的开源产品,体验一言难尽。我们决定,扎进这个领域,把技术往前推一步。
我们选了条路:直接做面向用户的产品,而不是光卖API。为啥?一来,只有真金白银的用户反馈——点赞、踩、下载这些数据,才能指引模型优化方向。强化学习这块,我们砸了不少功夫。二来,作为AI初创,只做API层太脆弱,容易被抄;只做底层模型,又怕被客户甩开。看看OpenAI的ChatGPT、Midjourney的ToC模式,我们最终锚定了面向消费者的语音陪伴产品,同时开放API给各路开发者。
ZP:第一次创业,你怎么定义自己这个“创业者”角色?团队又是什么气质?
冷月:虽然以前搞过不少个人项目,但正儿八经创业,这是头一回。该踩的坑一个没少:和联创理念不合、团队成员变动、早期融资抓瞎……跌跌撞撞,算是学会了看人,知道什么样的伙伴、投资人值得携手。
团队这块,我真挺感恩。兄弟们工程能力强,执行力爆表,主观能动性拉满。任务往工具上一扔,大家自动推进。每周一次同步,进度基本稳了。
做数据、搞模拟,团队里没一个惜力的。多数人是奔着“造AI陪伴”这个目标来的。最艰难那会儿,工资都发不出,大家也没散。
ZP:团队凭啥能搞出技术突破?每个人的角色怎么摆?
冷月:最核心的特质?Passion和使命感。团队里很多人从开源社区来,他们不是来打工的,是来做自己真心热爱的事。氛围很“卷”,愿意花时间,更会死磕:这东西还能怎么更好?怎么做才算完美?
分工上,大家各管一摊。功能需求拆解后扔进Linear任务系统,谁认领,谁负责到底。这对公司扩张至关重要:一个人扛一个板块,出bug、遇边界问题,责任跑不掉。搞不定?主动找团队或社区帮忙。这套机制效率奇高,沟通成本压到最低,执行力直接拉满。
ZP:创业路上,最难熬的是哪段?
冷月:2023年底吧。从英伟达离职才三四个月,我埋头搞模型,融资和联创这块一直没对上眼。起初想找个搭档扛商业化,自己专注模型。后来才醒过味儿:当创始人,不能把不擅长的事全甩给别人。合伙,是互补,不是替代。
那阵子是真难。信用卡债压着,算力告急……全靠团队咬牙死撑。熬到今年初,产品化加速,业务有样了,收入跟着涨,公司才算走上正轨。
ZP:融资进展呢?HF0孵化器有啥故事?
冷月:说来巧。加入HF0前几天,我们刚关了一轮融资。有朋友力荐我们申HF0,去年试过,没成。今年再申,等结果那会儿,眼看快开营了,就先结束了另一笔融资。
运气不错,HF0也过了。短时间内,两笔融资接连落袋。HF0出来后,业务数据得到验证,营收两三个月从零飙到近400万,窜得飞快。估值水涨船高,接着又融了一轮。
HF0活动结束才两周,我们就暂关了上一轮融资。琢磨着下一代模型(S1)发布后,市场反应会很大,想等那时再开新轮子,拿更合理的估值和战略空间。
ZP:有没有哪个瞬间,彻底颠覆了你对AI交互的认知?
冷月:具体时刻说不上,但有件小事触动很深。团队里有个核心成员,负责运营,那会儿正谈恋爱,现在婚都结了。我们聊起“煲电话粥”这事儿,情侣间太常见了,我自己也干过。忽然意识到,语音不只是文字的另一种形式,它是完全不同的媒介。打电话时,人常常不需要高度集中注意力,说话是种近乎本能的、放松的行为。
正因如此,语音不会像文字或图像那样,跟其他应用“抢屏幕时间”。刷抖音时回微信、看飞书,累人;但和亲近的人挂着电话,哪怕没聊啥,也不觉得耗神。这是种全新的交互形态。我们决定,要让语音更可控、情感更细腻、延迟更低、价格更便宜、更容易获得。
ZP:用一句话定义Fish Audio?你们解决啥核心问题?终极愿景是啥?
冷月:一句话:让媲美人声的AI配音演员触手可及(Make AI voice actor accessible)。相信这能释放巨大的创作潜能,既帮AI公司做服务,也能让专业用户高效创作内容。
ZP:“AI提供陪伴”这事儿,你看到的结构性机会在哪?
冷月:说句实在话,市面上最火的那几款AI社交产品,我觉得算不上真正的“AI社交”。真社交,得嵌进用户自己的社交网络里。现在多数AI伴侣,更像角色扮演聊天机器人——它和现实唯一的连接,就是用户手机那块屏。新媒网跨境认为,这里头藏着巨大的结构性机会。
ZP:别人卷文本、图像生成,你们死磕“更像人”的语音合成。产品思路是啥?开发过程啥心情?
冷月:有意思的点在于,体验差,是因为大家起初没意识到做好语音这么复杂。文字聊天、发语音消息、打电话,表达方式天差地别。
所以做模型时,我们区分不同语音场景,针对性设计benchmark、主观评测和人类偏好评估,验证模型在每种场景下的真实进步。
ZP:Fish Audio现在主要功能是啥?
冷月:分两大块。收入大头(约70%)来自全球内容创作者,主要在北美、日本。他们用我们生成视频配音、播客、有声书,甚至广告。另一块是API服务(约30%),客户有AI伴侣开发商、内容平台、客服中心等。
ZP:典型用户什么样?他们最痛的点是啥?
冷月:最典型的痛点:现在的AI语音生成,像在“抽卡”。
用户写段文本,脑子里早有预设的语气、重音、情感。可模型生成的,常常“方向对,感觉不对”。用户只能不停“刷新”,像抽卡一样碰运气,直到蒙对一次。有客户做有声小说反馈,大部分内容一次过,但碰到情绪细腻的句子,得生成几十次甚至上百次,才能“抽”到满意的。
这需求太迫切了——AI要超越人,必须能执行人类指令,而不是瞎蒙。过去一年,我们在开放域指令(open-domain instruction)上砸了大量研究。6月初发布的S1模型,将首次全面落地这能力——用户用自然语言直接下指令:语气、角色、情感、节奏、背景,语音控制自由度真正打开。
ZP:很多人说Eleven Labs之后,TTS技术就到天花板了。你认同吗?
冷月:不太认同。Eleven Labs的模型,尤其多语言版,结构偏传统,没啥突破性创新。甚至最近MiniMax新出的模型,主观听感评测多个维度已超越它。我们自己做了系统评估,把自家模型、Eleven Labs TTS和其他主流系统统一生成大样本,团队盲听打分——除了刚出的MiniMax没来得及测,目前我们内部评分排第一。
整体看,Eleven Labs在声音自然性上有点“刷分”(reward hacking)。初听起伏丰富很自然,细品发现这些起伏常是“装饰性”的,没精准对应语义和情绪。感觉“像人说话”,但琢磨它为啥这强调、那停顿,会发现是随机的,缺语用逻辑。离真正像人类表达的TTS,差距还不小。
ZP:技术上,你们做了啥突破,带来真实感和可控性?
冷月:早期做Bert-VITS2时,思路是拆分音色、语义、语调,用小模型分别建模。后来发现错了。算力和数据够的情况下,应该把模型做大,完整建模语音信息。后来我们干了这几件事:
一是模型结构集成。不再人为拆解,让统一模型同时建模语音、歌声、伴奏所有元素。这带来稳定性挑战,我们优化架构和训练方案,大模型管语义层预测,小模型管声音token预测,端到端训练,实现完整建模。
二是训练数据规模扩到千万小时级,覆盖海量说话风格和场景。在此基础上做出Fish Speech 1.5开源模型,曾是开源领域标杆。
当然,端到端强耦合带来稳定性问题,业内普遍头疼。不少公司靠限制音色、强微调绕开。我们砸资源搞强化学习优化,在不拆解前提下大幅降错,提升跨场景稳健性。
数据上,自建超大规模开放域语音数据集,含人工和机器标注,覆盖语义、场景、情绪、重音、说话人多维标签。靠这数据集构建自研语音识别系统,反推生成大规模语料。整个训练清洗流程,模型全自主。
ZP:快发布的新一代模型(S1)有啥突破?
冷月:S1架构和上代一致,真突破在两点:
一是数据结构更多样、控制维度更细。整合大量语音识别反推的标注数据,语气、说话人、情感、节奏等维度塞得更满。
二是强化学习带来高指令响应力。S1能根据用户指令,在合成语音中精准实现控制,比如:“这儿高兴点”、“这儿强调下”、“这儿顿一下”,甚至“高兴里带点愤怒”的复合情绪也行。这是对传统“语音生成黑箱”的重大突破。
内部评测看,S1在多个维度碾压主流竞品。
ZP:产品和技术,带来哪些用户和商业数据的增长?
冷月:刚提过,营收几个月从零冲到约400万刀,现在月收入摸到500万刀级别。月活用户从1月的5万,涨到现在40万左右。
除了市场指标,我们更盯紧反映真实体验的内部指标。比如用户“重新生成语音”的频率、“是否导出音频”的概率。用户选择导出,说明语音进了工作流;频繁重试,说明效果不满意。这些指标对优化模型、验证版本提升至关重要。
ZP:长期看,你的创业愿景和使命是啥?产品会怎么调整?
冷月:核心愿景是让AI配音达到并超越人类水平,实现真正的语音民主化。希望年中S1配合大语言模型(或未来的S2),达到人类配音演员水平,年底超越99%的人类。到那一步,才算真民主化:人们不再需要漫长训练学习,就能掌握这门专业。对独立游戏开发者、播客主、自媒体创作者,门槛彻底踏平。
Hanabi AI层面,几个月后会重点研发下一代陪伴产品,这是核心创始成员的共同追求。
ZP:三五年后,如果Fish Audio成了有影响力的大公司,你希望它在社会扮演什么角色?
冷月:分两层:
对内容创作者,Fish Audio是降门槛、提效率的神器。告别昂贵录音棚、反复修改的流程,输入想法,输出理想声音。
对配音演员,Fish Audio是协作者。长期配音的生理损耗和压力,是专业演员的痛。未来会支持版权音色注册与分成,让演员留住巅峰嗓音,获得长期收益。
在我们设想中,Fish Audio会进化成一种内容基础设施,支撑各种创作平台和内容形态;同时,它也是一个真正的新一代AI娱乐平台。新媒网跨境预测,这种融合技术与情感的基础设施,将重塑内容产业的创作与分发逻辑。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)