AI视频生成狂潮!一年吸金百亿,Vivix估值狂飙13亿!

2025-12-24AI工具

AI视频生成狂潮!一年吸金百亿,Vivix估值狂飙13亿!

今年,如果你要问中国科技圈哪个领域最火爆,答案多半会指向一个异常耀眼的方向——那就是视频生成领域。这里就像一个巨大的“热力图”,最明亮、最炽热的区域,无疑就是那些正在视频赛道上飞速奔跑的AI创业公司们。它们不仅跑得快,而且估值飙升的速度更是让人咋舌。

就拿刘宇和他的Vivix来说吧,简直就是个传奇。这支不到20人的多模态技术团队,今年年初才刚起步,年底估值就直接冲破了13.2亿美元大关。这意味着什么?不到一年时间,他们就完成了三轮跳跃式发展,直接从初创公司迈入了独角兽俱乐部!在今年资本市场那些高歌猛进的AI企业里,Vivix的增长曲线无疑是最陡峭、最引人瞩目的那一批。

与此同时,其他视频生成领域的创业者们也喜讯频传,仿佛约好了一般,纷纷向外界展示他们的亮眼成绩。比如,曾任月之暗面产品负责人的王冠,他创立的ONE2X公司就在今年年中顺利完成了A轮融资,历史累计融资额已经接近2300万美元,实力不容小觑。

还有一位草根出身的创业者,名叫阿彪,他凭借一款名为Pollo AI的产品,在短短7个月内就实现了惊人的2000万注册用户和600万月活跃用户。这不仅帮他拿下了1400万美元的融资,更令人称赞的是,这款产品在营收上也表现出色,年化收入已经突破了2000万美元,而且还实现了盈利平衡。这充分说明了,即使没有大厂背景,凭借敏锐的市场洞察力和扎实的产品能力,同样能闯出一片天。

此外,爱诗科技也在9月份传来了好消息,他们宣布完成了高达6000万美元的B轮融资,直接刷新了国内视频生成领域的单笔融资纪录。这笔巨额资金的注入,无疑为行业注入了一剂强心针,也让人们看到了中国AI视频生成领域蓬勃发展的巨大潜力。

这些生动的案例,无一例外地指向了一个共同的事实:只要你投身于视频生成这个赛道,只要你的产品能真正让用户用起来、能创造出实实在在的收入,那么你就会迅速获得资本的青睐和市场的认可。即使现在许多互联网巨头已经全面入局,视频生成依然是少数几个能够让创业公司凭借创新切入、做出差异化、并讲出动人增长故事的黄金赛道。这块蛋糕足够大,也足够美味,足以容纳更多的创新者和耕耘者。

为何偏偏是视频生成,能掀起如此巨大的波澜?

从技术层面来看,视频生成在多模态AI领域里,曾经被认为是“最难啃的骨头”。这其中的原因很复杂:它不仅包含了视觉的空间维度,还有时间维度上的挑战;更要命的是,它必须兼顾物理世界的规律、角色形象的一致性,以及专业的镜头语言表达。按照常理推断,模型应该先在文本和图片领域取得突破,彻底吃透这些相对简单的任务后,再循序渐进地升级到视频。然而,过去一年半的时间里,整个节奏被彻底打乱了,技术的进步超出了所有人的预期。

一方面,我们看到了模型能力的飞速突破。比如,外媒报道,Runway公司的Gen-4.5模型,在专业第三方评测机构Artificial Analysis发布的视频模型榜单上,力压谷歌、OpenAI、快手等众多玩家,高居Elo排名榜首。它的真实感、动作连贯性、镜头调度能力,已经达到了可以与专业广告片制作媲美的水平。这意味着,曾经只有专业团队才能实现的视觉效果,现在通过AI模型就能轻松生成。

另一方面,产品端也爆发出了惊人的“爆款效应”。OpenAI公司基于Sora 2模型推出的独立视频App“Sora”,将“一句话生成短视频”的用户体验,做成了类似抖音这样的内容社区。这款应用上线几天,就迅速冲到了美国苹果App Store免费榜的第一名,下载量甚至超过了他们自家的明星产品ChatGPT。这不仅证明了用户对这类产品有着强烈的需求,也预示着视频生成将不仅仅是技术突破,更会是用户交互方式的革新。

再往深了看,资本市场也对视频生成表现出极高的热情。新媒网跨境获悉,Luma AI公司今年宣布完成了高达9亿美元的融资,最新估值已经超过了40亿美元。而Runway的年化收入,据第三方机构估算,也已经逼近9000万美元的级别,而且其增长主要就来自于视频相关的产品。在国内,快手公司甚至在财报中单独披露了其AI生成产品“可灵”的收入,仅今年第二季度,单季收入就超过了2.5亿元人民币,这无疑成为了财报会上重点强调的增长引擎之一。

这些惊人的数字背后,隐藏着一个非常现实的市场判断:在所有多模态AI发展方向中,视频无疑是离“钱”最近的一个。无论是广告制作、剧情短片、电商详情页、游戏预告片,还是公司内部培训、在线教育内容,几乎所有的行业都有着“要做视频”的刚性需求。然而,传统的视频制作过程,在人力、时间、拍摄成本和后期制作成本上都极其昂贵。大模型如果想要从PPT上的美好构想,真正落地为实际的现金流,那么视频生成无疑是第一批能够实现商业闭环、产生实际价值的场景。它不仅解放了生产力,更极大地降低了内容创作的门槛。

大厂与创业公司:同一个战场,两套打法

如果我们从宏观视角审视今天的视频生成赛道,会看到两股清晰的力量正在进行着精彩的对冲与博弈。一股力量来自那些行业巨头,也就是我们常说的大厂路线。比如,OpenAI通过Sora模型,将模型能力与消费级产品深度打通,意图打造一个全新的内容生态。美国谷歌公司则利用其Veo系列模型,与自家的Gemini生态系统紧密绑定,发挥协同效应。而国内的字节跳动和快手等公司,则通过“即梦”和“可灵”等产品,深度融入并赋能自家庞大的内容平台、广告体系和电商生态。大厂的优势在于资源雄厚、用户基数庞大,它们更倾向于构建完善的生态闭环。

另一股力量,则来自那些充满活力的创业公司。它们像雨后春笋般涌现,从底层的模型基础设施研发,到应用层面的产品创新,再到视频版的Canva(可画)或剪映这类工具级应用,几乎每一个层级都有创业者在激烈竞争,不断“内卷”。创业公司的打法更灵活、更聚焦,它们往往能在特定领域找到突破口。

接下来,我们来看看几家典型的创业公司,它们是如何在激烈的竞争中走出自己的路的。

1. ONE2X:极致重产品,深耕工作流

ONE2X公司走的是一条典型的“重产品、重工作流”的创业路径。其创始人王冠,本身就是月之暗面的前产品负责人,对产品设计和用户体验有着深刻的理解。他们的团队成员也大多来自月之暗面、字节跳动、阿里巴巴、快手等国内顶尖的互联网公司,拥有丰富的技术和产品经验。

ONE2X推出的Medeo产品,并没有简单地去复制一个“模型试玩网站”,而是将自己的定位死死地钉在了“创意表达工具”这一核心功能上。它的设计理念非常独特:用户可以像与ChatGPT聊天一样,通过对话式的交互方式来修改视频内容。整个创作过程中,系统能够完整保留前后文的语境信息,让修改更加连贯和智能。同时,Medeo还内置了强大的视频剪辑功能和工作流编排工具,让动画、MV、广告片、解说视频这些常见的视频形态,都能通过“模板+自然语言指令”的方式高效组合生成。

为了实现这一切,ONE2X在底层构建了一套非常精密的“面向视频的生成系统”。他们采用了一种领域特定语言(DSL)来描述视频操作,并辅以Context系统和“人机共创环境”,将用户模糊的自然语言指令,精确地映射到具体的视频操作命令上。简单来说,ONE2X做的不仅仅是“调用一个视频模型”那么简单,他们是把整个视频编辑的语言逻辑重新抽象和设计了一遍。这使得模型能够理解并执行“把刚才那个镜头再暖一点、调成16:9比例、把背景音乐推进2秒”这种高度语义化的复杂指令,这无疑极大地提升了用户创作的自由度和效率。

2. Pollo AI:极致出海,流量为王

Pollo AI公司则完全是另一套令人耳目一新的思路:他们首先凭借极致的出海经验和卓越的搜索引擎优化(SEO)能力,将聚合模型与视频生成工具做成了一款实现高速增长的产品,然后在用户规模和营收增长的浪潮中,持续迭代和完善产品形态。

Pollo AI的创始人阿彪,并没有我们传统意义上的大厂履历,他的创业生涯是从各种工具类产品出海起步的。他依靠着对SEO技术的精通,让几十款产品成功地在海外市场站稳了脚跟。Pollo AI最早的形态,其实只是一个接入可灵等内测视频API的“壳”,一个聚合各种模型能力的平台。但凭借着对“选品”的独到眼光和对流量窗口的敏锐理解,这款产品在短短7个月内,就实现了月活跃用户超过400万、注册用户突破2000万的惊人成绩。更令人振奋的是,今年它已经实现了年化收入2000万美元,并且在整体上达到了盈亏平衡。

这是一条更具“草根精神”的创业路线:它不以自研大型模型为核心,不盲目烧钱投入上亿美金的算力成本。而是通过强大的产品能力、精湛的SEO技术以及对市场时机的精准把握,将AI模型带来的“技术红利”尽可能地转化为用户规模和实实在在的现金流。在这种坚实的基础上,Pollo AI正在逐步将产品从最初的“工具叠加”形态,升级演变为“完整工作流+对话式创作+智能代理(Agent)编排”的模式,致力于向“AI版剪映/视频版Canva”这样的综合性视频创作平台演化。

3. Vivix AI:激进技术,颠覆交互

第三类创业公司,则以刘宇的Vivix AI为代表,他们走的路线最为激进,也最具颠覆性。Vivix AI的目标并非仅仅是开发一个视频生成模型那么简单,他们是将视频视为未来实时交互界面的“第一语言”,试图从系统层面重写多模态智能和推理的基础设施。

从目前公开的信息和相关论文线索来看,Vivix公司在三个本质性方向上进行了深入的探索和实践:

第一,他们将视频推理视为一个复杂的系统工程问题来解决。这意味着他们不仅仅关注模型本身,更着眼于对精度、算力和延迟这三者进行重新平衡。通过在低精度计算、自适应位宽、深度学习编译器以及多维并行等多个层面进行系统性重写,他们的目标是实现“0.6秒生成T秒画面”这个量级的实时推理速度。这无疑是对现有计算范式的巨大挑战和突破,旨在将视频生成的速度推向极致。

第二,Vivix不再将传统的语言模型视为多模态AI的“总路由”。相反,他们采用了统一的token空间,实现了原生的多模态融合。这意味着视觉、音频、动作和语言等不同模态的信息,在同一个表征空间内共同进行训练和学习,最大限度地减少了传统“先转成文字再推理”过程中可能产生的信息损失。这种设计让AI能更直接、更自然地理解和处理多模态信息,从而提升整体智能水平。

第三,从公司成立的第一天起,Vivix就将他们的产品想象成“实时交互多模态内容”的载体。他们预见,未来的用户将不再是被动地在信息流中刷视频,而是站在一个智能AI系统的对面,就像玩游戏一样,进行实时的对话、互动和共同创作。在这种愿景中,视频不仅仅是最终的生成结果,而是一种持续不断生成、不断演进的过程。这种对未来交互模式的深刻洞察,展现了Vivix AI在技术路线上的超前性和激进性。

技术战场:质量、速度与成本的三角博弈

从表面上看,视频生成技术似乎只是一场比拼谁能生成更逼真、更像真人拍摄的视频的竞赛。但所有真正深入其中的团队都深知,这背后是一场关于“质量、速度与成本”的复杂“三角博弈”。要在这三者之间找到最佳的平衡点,绝非易事。

首先是质量。它不仅仅是指视频的清晰度和分辨率这些基本指标,更深层的含义是:生成的视频能否在整个镜头运动过程中,始终保持角色形象、光影效果和场景设置的一致性?它能否遵循基本的物理规律,避免出现角色突然“穿模”或者物体莫名其妙浮空的尴尬情况?它能否真正理解专业的镜头语言,准确地执行运镜、拉焦、摇镜头等复杂指令,从而生成富有电影感的画面?像Runway Gen-4.5、国内的可灵以及OpenAI的Sora这些头部模型,今天已经能够将简单的文本描述加上参考图像,转化成极具电影质感的短片。用户甚至可以精确控制镜头的推进、景别变化,乃至在一个提示词中写下“前5秒是空镜,后10秒切到人物特写”这样的专业指令,这种精细化控制能力令人惊叹。

其次是速度。在进行技术演示(Demo)时,等待几分钟来生成一个10秒的视频或许还能接受。然而,在真实的创作、电商营销、广告制作,甚至是互动游戏等场景中,每一次修改都要等待几分钟,这是绝对不可接受的。用户真正需要的是那种能够快速试错、即时预览、再快速修改的迭代体验,甚至在某些场景下,还需要达到实时互动、低延迟的体验。这就要求整个推理栈被彻底重写和优化。这也是为什么像Vivix、Luma这样的公司,会投入大量的精力在编译器、低精度推理和多卡并行技术上。他们的目的不是为了发表更学术化的论文,而是为了将生成延迟压缩到足以支撑实时交互的水平,从而满足实际应用的需求。

最后,也是至关重要的一点是成本。众所周知,视频生成是AI领域中算力消耗最为巨大的场景之一。OpenAI公司自己曾估算过,像Sora这类模型在自由生成模式下,每天消耗的token成本可能高达千万美元级别。这也是为什么Sora在产品设计上必须小心翼翼地控制生成时长和生成频率的原因。一方面,像Sora这样的集社交与创作于一体的产品,为了迅速启动市场(冷启动),不得不承担相当高的免费使用成本;另一方面,对于广告主、游戏公司、影视制作公司而言,他们更关注的是“这条AI生成的视频到底能帮我节省多少人力成本”,“这个API接口的单价能否带来划算的投资回报率(ROI)”。在商业应用中,成本效益永远是衡量技术价值的关键指标。

从“做视频”到“用视频说话”:一个更远的终局

如果我们仅仅把视频生成看作是一种能够更便宜地制作广告片、制作带货视频的技术升级,那无疑是低估了它的潜力。这就像当年我们看待互联网,如果只把它当成更快的收发邮件工具,那就无法预见它对整个社会的深远影响。但如果我们将目光投向Vivix等团队所描绘的愿景,顺着他们的视角向前看,我们会看到一个更加深远、更具颠覆性的终局:未来,视频将不再仅仅是一种内容形态,它会逐渐演变为一种全新的“交互语言”。

今天,我们主要通过语言和文字与AI模型进行互动。但在不远的明天,越来越多的人将能够直接通过视频和动作,与智能系统进行对话。想象一下这样的场景:你给AI模型看一段你家客厅的视频,它就能实时为你生成一套个性化的装修方案;你只需要用一句话和几张简单的草图描述一个产品,系统就能直接为你生成精美的产品介绍短片、一场发布会的开场视频,甚至是用于市场投放的各种素材;在未来的游戏中,你不仅仅是在操控角色,你的每一次走动、每一次说话、每一次表情变化,身边的非玩家角色(NPC)和游戏环境都会根据你的行为,实时地重写剧情和画面,带来前所未有的沉浸式体验。

要支撑这些充满想象力的场景,视频生成模型必须同时具备三项核心能力:第一,足够强大的多模态理解能力,它能够准确“看懂”画面中的人物、环境以及各种动作;第二,足够快的推理速度,要能真正做到“你说一句,系统立刻给出一段”的实时响应;第三,足够低的成本,只有这样,这项技术才能规模化地普及,渗透到我们每一个人的手机、每一台头显设备,以及我们访问的每一个网页之中。

这就是为什么新媒网跨境认为,2025年的视频生成赛道看起来如此拥挤,却又如此合理和充满希望。它不仅仅是一场技术的革新,更会像当年触摸屏取代实体按键、短视频颠覆图文内容一样,深刻地改变我们与数字世界互动、交流的方式。一个全新的“视频化”时代,正加速向我们走来。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-video-boom-vivix-1-3b-in-year.html

评论(0)
暂无评论,快来抢沙发~
中国AI视频生成领域在2025年下半年异常火爆,涌现出Vivix AI、ONE2X、Pollo AI和爱诗科技等众多创业公司,估值和融资额屡创新高。这些公司在技术突破、产品创新和商业模式上各有特色,推动视频生成技术在质量、速度和成本上不断优化,预示着一个全新的“视频化”时代即将到来。
发布于 2025-12-24
查看人数 118
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。