原创 金色传说大聪明 2025-10-23 13:47 广东
最好、最新的内容,总在赛博禅心
a16z 发了新文章视频模型,不会一家通吃There is no God Tier video model
什么意思?以前大家卷的是 benchmark:谁生成时间长、物理效果好、更像真的
现在不一样了模型开始专业化,没有单一神了AI 视频模型,进入到了产品时代
以及:产品层面还有巨大空白
就算模型今天停止进步创业者也要花好几年才能把产品做好
对于创业者来说,这才是真正的机会
Sora 2 和 Veo 3 在干什么
拿 Sora 2 和 Veo 3 做了对比,特别能说明问题
Sora 2 上个月发布,LMarena 排行榜上排在 Veo 3 后面
很多人可能觉得这是退步
但测下来发现:它们压根就不是在做同一件事
Veo 3专注于「物理仿真和音视频同步」
复杂运动、多物体交互、说话对口型,这些它都很稳
如果你要做专业创作,音视频必须完美同步,物理效果要准确,选它
Sora 2专注于「会导戏,会讲故事」
你给个简短提示词,它帮你写剧本(还挺搞笑),生成多个镜头
做梗图、做段子,特别适合,比如让霍金打篮球、让皮卡丘客串经典电影
但它音视频同步没 Veo 3 好,经常多个快切镜头,音频对不上
说白了,Sora 2 适合玩梗,Veo 3 适合专业创作
这个趋势不只是这两家
• Grok 做动漫特别好,快又便宜
• Hedra 做长视频的说话人物很稳
• Seedance Pro 可以一次生成多镜头场景
• Wan 是开源模型,有一堆 LoRA 可以调
就像 17、18 世纪的静物画家
画到一定程度,不是比谁更真实,而是比风格
然后,我们获得了更多的多样性和专业化
一个艺术的丰富时代
产品层还有巨大空白
这才是最激动人心的部分
模型能力和产品之间,有巨大的鸿沟
作者举了个例子,如果做一个家具展示视频,需要:
用 Ideogram 生成素材 →用 nano-banana 处理 →用 Veo 3 生成视频 →用 Hedra 加人物 →用 Krea 或 Kapwing 剪辑
这一套流程,普通人根本玩不转
但这些事情,完全可以做成一个产品自动完成
再看看创作者现在在手动做的事
• 搞定角色一致
• 串联首尾帧
• 控制运动镜头
• 拼接故事板
而这些,都应该是产品层面解决的问题
实际上,有些团队确实在做了
• Runway 发布了一套工具,可以编辑镜头、控制天气、增删物品
• Sora 发布了 Storyboard,能精确控制每个时刻的动作
• Veo 3.1 这个月的更新,几乎全是产品功能,模型本身没怎么改
但还远远不够
未来肯定会出现:
• 针对特定场景的专用模型(家居展示、营销、动画)
• 帮你选模型优化生成效果的产品
• 把视频配音音乐整合在一起的创作套件
就像 LLM 也经历过这个阶段
模型进步放缓后,产品层爆发了
视频模型现在也到了这个时刻
最后
上面的内容,是 a16z 发布的作者 Justine Moore,a16z 的合伙人
看这篇文章的时候突然串联起了另一件事儿
昨天,LiblibAI 融了 1.3 亿美金,B 轮。投资方包括由红杉中国、CMC资本和一些大厂战投
有两个点:
• 这是是目前为止,中国 AI 应用的最大规模融资,超过 Manus 的 8000 万美金
• Lovart 也是这家的,解决了一站式创作
这么来看,大抵上说得通了,现在的主流趋势,从卷模型性能到卷产品体验
对大厂来说,可能有点失落
但对创业公司和开发者来说,这是最好的时候
把模型能力,变成普通人真正能用的产品
原文奉上
我还给带来了翻译版,并且重新拍了个版
