AI视频生成狂潮！一年吸金百亿，Vivix估值狂飙13亿！

今年，如果你要问中国科技圈哪个领域最火爆，答案多半会指向一个异常耀眼的方向——那就是视频生成领域。这里就像一个巨大的“热力图”，最明亮、最炽热的区域，无疑就是那些正在视频赛道上飞速奔跑的AI创业公司们。它们不仅跑得快，而且估值飙升的速度更是让人咋舌。

就拿刘宇和他的Vivix来说吧，简直就是个传奇。这支不到20人的多模态技术团队，今年年初才刚起步，年底估值就直接冲破了13.2亿美元大关。这意味着什么？不到一年时间，他们就完成了三轮跳跃式发展，直接从初创公司迈入了独角兽俱乐部！在今年资本市场那些高歌猛进的AI企业里，Vivix的增长曲线无疑是最陡峭、最引人瞩目的那一批。

与此同时，其他视频生成领域的创业者们也喜讯频传，仿佛约好了一般，纷纷向外界展示他们的亮眼成绩。比如，曾任月之暗面产品负责人的王冠，他创立的ONE2X公司就在今年年中顺利完成了A轮融资，历史累计融资额已经接近2300万美元，实力不容小觑。

还有一位草根出身的创业者，名叫阿彪，他凭借一款名为Pollo AI的产品，在短短7个月内就实现了惊人的2000万注册用户和600万月活跃用户。这不仅帮他拿下了1400万美元的融资，更令人称赞的是，这款产品在营收上也表现出色，年化收入已经突破了2000万美元，而且还实现了盈利平衡。这充分说明了，即使没有大厂背景，凭借敏锐的市场洞察力和扎实的产品能力，同样能闯出一片天。

此外，爱诗科技也在9月份传来了好消息，他们宣布完成了高达6000万美元的B轮融资，直接刷新了国内视频生成领域的单笔融资纪录。这笔巨额资金的注入，无疑为行业注入了一剂强心针，也让人们看到了中国AI视频生成领域蓬勃发展的巨大潜力。

这些生动的案例，无一例外地指向了一个共同的事实：只要你投身于视频生成这个赛道，只要你的产品能真正让用户用起来、能创造出实实在在的收入，那么你就会迅速获得资本的青睐和市场的认可。即使现在许多互联网巨头已经全面入局，视频生成依然是少数几个能够让创业公司凭借创新切入、做出差异化、并讲出动人增长故事的黄金赛道。这块蛋糕足够大，也足够美味，足以容纳更多的创新者和耕耘者。

为何偏偏是视频生成，能掀起如此巨大的波澜？

从技术层面来看，视频生成在多模态AI领域里，曾经被认为是“最难啃的骨头”。这其中的原因很复杂：它不仅包含了视觉的空间维度，还有时间维度上的挑战；更要命的是，它必须兼顾物理世界的规律、角色形象的一致性，以及专业的镜头语言表达。按照常理推断，模型应该先在文本和图片领域取得突破，彻底吃透这些相对简单的任务后，再循序渐进地升级到视频。然而，过去一年半的时间里，整个节奏被彻底打乱了，技术的进步超出了所有人的预期。

一方面，我们看到了模型能力的飞速突破。比如，外媒报道，Runway公司的Gen-4.5模型，在专业第三方评测机构Artificial Analysis发布的视频模型榜单上，力压谷歌、OpenAI、快手等众多玩家，高居Elo排名榜首。它的真实感、动作连贯性、镜头调度能力，已经达到了可以与专业广告片制作媲美的水平。这意味着，曾经只有专业团队才能实现的视觉效果，现在通过AI模型就能轻松生成。

另一方面，产品端也爆发出了惊人的“爆款效应”。OpenAI公司基于Sora 2模型推出的独立视频App“Sora”，将“一句话生成短视频”的用户体验，做成了类似抖音这样的内容社区。这款应用上线几天，就迅速冲到了美国苹果App Store免费榜的第一名，下载量甚至超过了他们自家的明星产品ChatGPT。这不仅证明了用户对这类产品有着强烈的需求，也预示着视频生成将不仅仅是技术突破，更会是用户交互方式的革新。

再往深了看，资本市场也对视频生成表现出极高的热情。新媒网跨境获悉，Luma AI公司今年宣布完成了高达9亿美元的融资，最新估值已经超过了40亿美元。而Runway的年化收入，据第三方机构估算，也已经逼近9000万美元的级别，而且其增长主要就来自于视频相关的产品。在国内，快手公司甚至在财报中单独披露了其AI生成产品“可灵”的收入，仅今年第二季度，单季收入就超过了2.5亿元人民币，这无疑成为了财报会上重点强调的增长引擎之一。

这些惊人的数字背后，隐藏着一个非常现实的市场判断：在所有多模态AI发展方向中，视频无疑是离“钱”最近的一个。无论是广告制作、剧情短片、电商详情页、游戏预告片，还是公司内部培训、在线教育内容，几乎所有的行业都有着“要做视频”的刚性需求。然而，传统的视频制作过程，在人力、时间、拍摄成本和后期制作成本上都极其昂贵。大模型如果想要从PPT上的美好构想，真正落地为实际的现金流，那么视频生成无疑是第一批能够实现商业闭环、产生实际价值的场景。它不仅解放了生产力，更极大地降低了内容创作的门槛。

大厂与创业公司：同一个战场，两套打法

如果我们从宏观视角审视今天的视频生成赛道，会看到两股清晰的力量正在进行着精彩的对冲与博弈。一股力量来自那些行业巨头，也就是我们常说的大厂路线。比如，OpenAI通过Sora模型，将模型能力与消费级产品深度打通，意图打造一个全新的内容生态。美国谷歌公司则利用其Veo系列模型，与自家的Gemini生态系统紧密绑定，发挥协同效应。而国内的字节跳动和快手等公司，则通过“即梦”和“可灵”等产品，深度融入并赋能自家庞大的内容平台、广告体系和电商生态。大厂的优势在于资源雄厚、用户基数庞大，它们更倾向于构建完善的生态闭环。

另一股力量，则来自那些充满活力的创业公司。它们像雨后春笋般涌现，从底层的模型基础设施研发，到应用层面的产品创新，再到视频版的Canva（可画）或剪映这类工具级应用，几乎每一个层级都有创业者在激烈竞争，不断“内卷”。创业公司的打法更灵活、更聚焦，它们往往能在特定领域找到突破口。

接下来，我们来看看几家典型的创业公司，它们是如何在激烈的竞争中走出自己的路的。

1. ONE2X：极致重产品，深耕工作流

ONE2X公司走的是一条典型的“重产品、重工作流”的创业路径。其创始人王冠，本身就是月之暗面的前产品负责人，对产品设计和用户体验有着深刻的理解。他们的团队成员也大多来自月之暗面、字节跳动、阿里巴巴、快手等国内顶尖的互联网公司，拥有丰富的技术和产品经验。

ONE2X推出的Medeo产品，并没有简单地去复制一个“模型试玩网站”，而是将自己的定位死死地钉在了“创意表达工具”这一核心功能上。它的设计理念非常独特：用户可以像与ChatGPT聊天一样，通过对话式的交互方式来修改视频内容。整个创作过程中，系统能够完整保留前后文的语境信息，让修改更加连贯和智能。同时，Medeo还内置了强大的视频剪辑功能和工作流编排工具，让动画、MV、广告片、解说视频这些常见的视频形态，都能通过“模板+自然语言指令”的方式高效组合生成。

为了实现这一切，ONE2X在底层构建了一套非常精密的“面向视频的生成系统”。他们采用了一种领域特定语言（DSL）来描述视频操作，并辅以Context系统和“人机共创环境”，将用户模糊的自然语言指令，精确地映射到具体的视频操作命令上。简单来说，ONE2X做的不仅仅是“调用一个视频模型”那么简单，他们是把整个视频编辑的语言逻辑重新抽象和设计了一遍。这使得模型能够理解并执行“把刚才那个镜头再暖一点、调成16:9比例、把背景音乐推进2秒”这种高度语义化的复杂指令，这无疑极大地提升了用户创作的自由度和效率。

2. Pollo AI：极致出海，流量为王

Pollo AI公司则完全是另一套令人耳目一新的思路：他们首先凭借极致的出海经验和卓越的搜索引擎优化（SEO）能力，将聚合模型与视频生成工具做成了一款实现高速增长的产品，然后在用户规模和营收增长的浪潮中，持续迭代和完善产品形态。

Pollo AI的创始人阿彪，并没有我们传统意义上的大厂履历，他的创业生涯是从各种工具类产品出海起步的。他依靠着对SEO技术的精通，让几十款产品成功地在海外市场站稳了脚跟。Pollo AI最早的形态，其实只是一个接入可灵等内测视频API的“壳”，一个聚合各种模型能力的平台。但凭借着对“选品”的独到眼光和对流量窗口的敏锐理解，这款产品在短短7个月内，就实现了月活跃用户超过400万、注册用户突破2000万的惊人成绩。更令人振奋的是，今年它已经实现了年化收入2000万美元，并且在整体上达到了盈亏平衡。

这是一条更具“草根精神”的创业路线：它不以自研大型模型为核心，不盲目烧钱投入上亿美金的算力成本。而是通过强大的产品能力、精湛的SEO技术以及对市场时机的精准把握，将AI模型带来的“技术红利”尽可能地转化为用户规模和实实在在的现金流。在这种坚实的基础上，Pollo AI正在逐步将产品从最初的“工具叠加”形态，升级演变为“完整工作流+对话式创作+智能代理（Agent）编排”的模式，致力于向“AI版剪映/视频版Canva”这样的综合性视频创作平台演化。

3. Vivix AI：激进技术，颠覆交互

第三类创业公司，则以刘宇的Vivix AI为代表，他们走的路线最为激进，也最具颠覆性。Vivix AI的目标并非仅仅是开发一个视频生成模型那么简单，他们是将视频视为未来实时交互界面的“第一语言”，试图从系统层面重写多模态智能和推理的基础设施。

从目前公开的信息和相关论文线索来看，Vivix公司在三个本质性方向上进行了深入的探索和实践：

第一，他们将视频推理视为一个复杂的系统工程问题来解决。这意味着他们不仅仅关注模型本身，更着眼于对精度、算力和延迟这三者进行重新平衡。通过在低精度计算、自适应位宽、深度学习编译器以及多维并行等多个层面进行系统性重写，他们的目标是实现“0.6秒生成T秒画面”这个量级的实时推理速度。这无疑是对现有计算范式的巨大挑战和突破，旨在将视频生成的速度推向极致。

第二，Vivix不再将传统的语言模型视为多模态AI的“总路由”。相反，他们采用了统一的token空间，实现了原生的多模态融合。这意味着视觉、音频、动作和语言等不同模态的信息，在同一个表征空间内共同进行训练和学习，最大限度地减少了传统“先转成文字再推理”过程中可能产生的信息损失。这种设计让AI能更直接、更自然地理解和处理多模态信息，从而提升整体智能水平。

第三，从公司成立的第一天起，Vivix就将他们的产品想象成“实时交互多模态内容”的载体。他们预见，未来的用户将不再是被动地在信息流中刷视频，而是站在一个智能AI系统的对面，就像玩游戏一样，进行实时的对话、互动和共同创作。在这种愿景中，视频不仅仅是最终的生成结果，而是一种持续不断生成、不断演进的过程。这种对未来交互模式的深刻洞察，展现了Vivix AI在技术路线上的超前性和激进性。

技术战场：质量、速度与成本的三角博弈

从表面上看，视频生成技术似乎只是一场比拼谁能生成更逼真、更像真人拍摄的视频的竞赛。但所有真正深入其中的团队都深知，这背后是一场关于“质量、速度与成本”的复杂“三角博弈”。要在这三者之间找到最佳的平衡点，绝非易事。

首先是质量。它不仅仅是指视频的清晰度和分辨率这些基本指标，更深层的含义是：生成的视频能否在整个镜头运动过程中，始终保持角色形象、光影效果和场景设置的一致性？它能否遵循基本的物理规律，避免出现角色突然“穿模”或者物体莫名其妙浮空的尴尬情况？它能否真正理解专业的镜头语言，准确地执行运镜、拉焦、摇镜头等复杂指令，从而生成富有电影感的画面？像Runway Gen-4.5、国内的可灵以及OpenAI的Sora这些头部模型，今天已经能够将简单的文本描述加上参考图像，转化成极具电影质感的短片。用户甚至可以精确控制镜头的推进、景别变化，乃至在一个提示词中写下“前5秒是空镜，后10秒切到人物特写”这样的专业指令，这种精细化控制能力令人惊叹。

其次是速度。在进行技术演示（Demo）时，等待几分钟来生成一个10秒的视频或许还能接受。然而，在真实的创作、电商营销、广告制作，甚至是互动游戏等场景中，每一次修改都要等待几分钟，这是绝对不可接受的。用户真正需要的是那种能够快速试错、即时预览、再快速修改的迭代体验，甚至在某些场景下，还需要达到实时互动、低延迟的体验。这就要求整个推理栈被彻底重写和优化。这也是为什么像Vivix、Luma这样的公司，会投入大量的精力在编译器、低精度推理和多卡并行技术上。他们的目的不是为了发表更学术化的论文，而是为了将生成延迟压缩到足以支撑实时交互的水平，从而满足实际应用的需求。

最后，也是至关重要的一点是成本。众所周知，视频生成是AI领域中算力消耗最为巨大的场景之一。OpenAI公司自己曾估算过，像Sora这类模型在自由生成模式下，每天消耗的token成本可能高达千万美元级别。这也是为什么Sora在产品设计上必须小心翼翼地控制生成时长和生成频率的原因。一方面，像Sora这样的集社交与创作于一体的产品，为了迅速启动市场（冷启动），不得不承担相当高的免费使用成本；另一方面，对于广告主、游戏公司、影视制作公司而言，他们更关注的是“这条AI生成的视频到底能帮我节省多少人力成本”，“这个API接口的单价能否带来划算的投资回报率（ROI）”。在商业应用中，成本效益永远是衡量技术价值的关键指标。

从“做视频”到“用视频说话”：一个更远的终局

如果我们仅仅把视频生成看作是一种能够更便宜地制作广告片、制作带货视频的技术升级，那无疑是低估了它的潜力。这就像当年我们看待互联网，如果只把它当成更快的收发邮件工具，那就无法预见它对整个社会的深远影响。但如果我们将目光投向Vivix等团队所描绘的愿景，顺着他们的视角向前看，我们会看到一个更加深远、更具颠覆性的终局：未来，视频将不再仅仅是一种内容形态，它会逐渐演变为一种全新的“交互语言”。

今天，我们主要通过语言和文字与AI模型进行互动。但在不远的明天，越来越多的人将能够直接通过视频和动作，与智能系统进行对话。想象一下这样的场景：你给AI模型看一段你家客厅的视频，它就能实时为你生成一套个性化的装修方案；你只需要用一句话和几张简单的草图描述一个产品，系统就能直接为你生成精美的产品介绍短片、一场发布会的开场视频，甚至是用于市场投放的各种素材；在未来的游戏中，你不仅仅是在操控角色，你的每一次走动、每一次说话、每一次表情变化，身边的非玩家角色（NPC）和游戏环境都会根据你的行为，实时地重写剧情和画面，带来前所未有的沉浸式体验。

要支撑这些充满想象力的场景，视频生成模型必须同时具备三项核心能力：第一，足够强大的多模态理解能力，它能够准确“看懂”画面中的人物、环境以及各种动作；第二，足够快的推理速度，要能真正做到“你说一句，系统立刻给出一段”的实时响应；第三，足够低的成本，只有这样，这项技术才能规模化地普及，渗透到我们每一个人的手机、每一台头显设备，以及我们访问的每一个网页之中。

这就是为什么新媒网跨境认为，2025年的视频生成赛道看起来如此拥挤，却又如此合理和充满希望。它不仅仅是一场技术的革新，更会像当年触摸屏取代实体按键、短视频颠覆图文内容一样，深刻地改变我们与数字世界互动、交流的方式。一个全新的“视频化”时代，正加速向我们走来。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/ai-video-boom-vivix-1-3b-in-year.html