晚点LatePost 前天 22:44
曹越分享十年AI历程:从研究员到创业者,洞察组织力与技术演进
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深度访谈了AI领域的关键人物曹越,回顾了他十年间从研究员到创业者的心路历程。他分享了对深度学习的早期洞察、Swin Transformer的研发经历,以及从论文驱动到问题驱动的思维转变。曹越特别强调了OpenAI的组织力是其突破的关键,并以此为鉴,探讨了中国AI行业的发展与挑战。他创办Sand.ai,聚焦AI视频生成,并分享了对技术、产品垂直整合以及未来AI发展趋势的深刻见解。

💡 **从研究员到创业者的演变与思维转变**:曹越的AI十年历程,从2014年转向深度学习,到2021年凭借Swin Transformer获得ICCV最佳论文,再到2023年创立Sand.ai,每一步都伴随着对AI行业演进的深刻洞察。他尤其强调了从“论文驱动”到“问题驱动”的思维转变,认识到OpenAI的成功在于其强大的组织能力和对“可规模化系统”的设计,而非仅仅依赖算力。

🚀 **洞察组织力与AI突破的关键**:曹越通过分析OpenAI发布的CLIP和DALL-E等工作,认识到其背后是不同于传统研究组的组织和思维方式。他认为,OpenAI的问题驱动模式、强调设计可规模化系统以最大化利用算力,以及需要多类型人才协同工作的组织形态,是其取得突破的关键。这促使他从微软亚研院加入智源研究院,并最终选择创业。

🎬 **聚焦AI视频生成与垂直整合**:在创立Sand.ai后,曹越将目光投向AI视频生成领域,特别是聚焦于解决人物表演这一核心痛点。他认为AI视频生成具有巨大的技术和商业潜力,并强调了“垂直整合”的组织模式,即模型、产品和运营人员的深度融合,以更好地实现产品市场契合(PMF),并推动模型与产品体验的相互放大。

🗣️ **AI视频生成的新进展与未来展望**:Sand.ai发布的新模型Gaga-1具备音画同出、人物一致性等能力,旨在服务于专业叙事内容创作者和C端消费者。曹越认为,AI视频生成正从工具型机会向C端平台机会演进,关键在于内容形态和传播链路的创新。他期待未来AI视频能够实现更自然的叙事和更广泛的应用。

🧠 **大模型作为思考伙伴与认知升级**:曹越将大语言模型视为重要的思考伙伴,利用其强大的结构化和类比拆解能力,帮助自己深化对问题的认知。他认为大模型能够显著降低人与人之间的交流摩擦,桥接认知差异,并预示着未来可能出现的超级智能(ASI)将对世界产生颠覆性影响。

原创 晚点团队 2025-11-03 16:23 北京

“OpenAI 是一个端到端的组织。”

程曼祺

2023 年 2 月,美团联合创始人王慧文宣布创立光年之外,随后他密集拜访了一个又一个中国顶级的 AI 研究者,每见一个他就问:“你最推荐我继续和谁聊” 一个月后,他找到了自己的算法联合创始人——当时 31 岁的曹越。

曹越过去十年的每一个关键选择,都是大模型演化的一个注脚:他在 2014 年转向深度学习,2021 年拿下 ICCV 最佳论文,2022 年加入中国最早聚焦大模型的智源研究院,2023 年成为光年之外联创,2024 年创立 Sand.ai 做视频生成。

这篇访谈中,曹越完整分享了从研究员到创业者的十年历程,也折射出整个 AI 行业从萌芽到崛起的变化。

在个人选择和趋势判断上,曹越有一个贯穿的视角:关注组织与协作方式。2021 年,曹越凭借 Swin Transformer 拿下 ICCV 最佳论文马尔奖,但看到同年 OpenAI 发布的 CLIP 和 DALL·E 后,他很快判断,对方的突破背后是不同的组织和思维方式:

当时大多数国内研究组还是论文驱动,而 OpenAI 是去思考这个领域有什么大的、本质的问题,更加问题驱动。

当你很关注论文,就会受审稿人品味影响,去优化所谓创新性……但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。

这促使曹越在一年后,加入主攻大语言模型的智源研究院。当时 ChatGPT 尚未发布,大语言模型还不是行业共识。

24 年至今,曹越开始作为一号位创立 Sand.ai。在 Sand.ai 的两代模型——Magi-1 到 10 月刚发布的 Gaga-1 背后,是曹越组织思路的继续变化:从更侧重模型、技术驱动,到转向模型与产品/需求的深度垂直整合。

Gaga-1 的目标很具体——让 AI 视频中的人物真正 “能表演”。以往叙事内容制作的 AI 生成最大痛点就是:人物不一致、不能音画同出、表演太假。

研究背景的创始人能多快成为专业 CEO?环境又能给他们多少余裕?曹越和 Sand.ai 会以实践写下对这个关键问题的答案。

* 本期访谈也已发布「播客版」和「视频版」。

从 ICCV 最佳论文到研究 OpenAI 组织力

“OpenAI 最核心的思路,就是设计一个 scalable 的系统,然后最大化压榨算力。”

晚点:过去十年,你的每个关键选择都有代表性。回顾过往的 AI 经历,第一个在你脑海中出现的时刻是什么?

曹越:那还是转向深度学习的时刻。那是 2014 年,我上大四,当时深度学习在国内还不怎么火,甚至有教授在个人网页上明确写:“不做超过两层的神经网络”。

我比较幸运,当时我的副导师去伯克利访问,发现硅谷所有人都在讨论深度学习。我们组也是国内最早一批买了 GPU,开始做深度学习的组。接着是 17、18 年,我加入了 MSRA(微软亚研院)的视觉组。

晚点:这是个非常传奇的组。

曹越:对,他们在 14 到 15 年做出了 ResNet(残差神经网络)。一批人在 16、17 年陆续出来,有去公司的、有创业的。(编者注:这里走出来的创业者有商汤创始人汤晓鸥,旷视首席科学家孙剑,Momenta 创始人曹旭东等。)

这个组确实有一些传承。我最受益的有几点:一是你要去做最受关注的 topic,而且它是一个还有很大机会的,不是已经收敛的 topic。二是一旦识别到一个重要机会,要放足够资源去做到极致,而这本质是一个组织问题。

晚点:一个很受关注的方向,往往已经很多人在做了,怎么判断它仍有很大提升空间?

曹越:这个还真是有一些直觉。当你真的在一个行业里做了一段时间,思考过很多问题后,你会变敏感:一些在别人看来微妙的基础信号,在你这里会是非常剧烈的信号。

晚点:我们可以讲一个具体例子,就是你和亚研院同事在 21 拿到 ICCV 最佳论文马尔奖的成果 Swin Transformer,它是把 Transformer 用到视觉领域。你们怎么看到这个 topic 的?

曹越:Transformer 2017 年就出现了,它在整个视觉和多模态方向的普及有两个阶段:

第一个阶段是将 Attention(注意力)模块嵌入卷积神经网络(CNN)。

这个阶段的主要的思路,是用 Attention 来弥补 CNN 的缺陷。CNN 天然是局部的,感受野(一个深度学习网络中,“神经元” 能看到的输入区域)有限。而 Transfomer 里的 Attention 则能相对低成本地扩大感受野。

当时还有另一条路,但做的人比较少:就是试图用 Attention 模块直接替代卷积。我们组 18、19 年已经在做这个方向,但还是在跟随之前 ResNet 的整体结构,只是替换了其中卷积的部分。

第二阶是用 Transformer 的整体结构替代 CNN。

2020 年下半年出现了两个重要工作:一是 OpenAI 的 Image GPT。在 GPT-3 后,OpenAI 暴力地把 GPT 用到了计算机视觉,但因为效果不好,大多数人都没理解。

二就是 ViT,Vision Transformer。Image GPT 是直接在像素上做 Self-Attention,计算效率低;ViT 则将像素变成一个 patch,比如一个 16×16 的像素块来处理,它在 ImageNet 的图像分类任务上取得了不错的效果。(注:Self-Attention 自注意力机制,是一种特殊的注意力机制,它不是让输出序列关注输入序列,而是让输入序列中的每个元素都关注自身和其他所有元素,以捕捉序列内部不同位置间的依赖关系。)

这给视觉方向带来的核心认知是:别再拘泥于 CNN,应该尝试引入 Transformer 的整体结构。ViT 证明了在图像分类里可以这么做,因此我们判断:如果能基于 Transformer 的宏观结构,做出能适配多数视觉任务、且效果出色的网络,就有机会替代基于 CNN 的一套网络。

晚点:所以 Swin Transformer 的出发点就是不仅用 Transformer 来做图像分类,也让它能更通用地适应其他常见视觉任务?

曹越:对,包括目标检测、语义分割等等。在这之前,计算机视觉任务的复杂度比较高,不同任务的基础网络结构一般都是 CNN(ResNet),但整个任务的系统会有一些差异。所以这个问题就变成了:怎么用下一代 Transformer-based 网络结构替代过去的 CNN-based 网络结构

因为我们组很早就在研究 Transformer,我们对计算机视觉里的关键方向,图像分类、目标检测等又非常熟悉。所以我们最早在 ViT 之后,看到了这个机会,而且能明确感觉到这是一个大机会,原因有三点:

网络结构本身是深度学习领域最受关注的 topic;

如果它能实现,它对所有视觉任务的效果都会有较大提升;

有机会进一步打破 “计算机视觉必须用卷积” 的思维藩篱。

另一个关键是,我们识别到这个机会后,确实动员了很多力量,把组里能参与的人都拉进来了,一起在各个维度上把 Swin Transformer 做到了极致,最终效果明显优于同期的相似工作。

晚点:这正好是你最受益的另一点,就是看到机会后,你们的组织能支持你们实现到什么程度?

曹越:是的。你要能嗅到机会;也要有组织能力,能真的抓住这个机会,两者缺一不可。

不过这两者确实有时会打架。你不能每次看到什么 topic 热,就冲进去做一波;这样每个工作都做得不扎实,经不起时间考验。我也认识一类人,他每做一个 topic,就做得特别扎实,钻进去特别久,但往往等做好时,已经不赶趟了。但如果比较幸运,这类人还是可以做出非常出色的工作。

晚点:这听起来和企业里的研发与业务决策有共通性:需要思考方向和优先级、投多少资源、团队怎么协作。

曹越:不过看到 OpenAI 和 DeepMind 的一系列工作后,我意识到原有方法论的天花板很明显。AlphaFold 的突破、以及 2021 年初,OpenAI 的 DALL·E 和 CLIP 都很说明问题。

但当时我身边很少有人在研究为什么 OpenAI 能做出这样的工作,以及能给这些工作符合他们影响力的评价。大多数人的第一反应是这么做需要很多算力,他们有算力、我们没算力,所以跟我没关系。其实如果能放下 ego(自我),仔细研究这两篇工作,他们的做事方法论、mindset(思维方式)和组织形态都和当时我们做论文的感觉非常不一样。

所以 21 年-22 年,我经历了比较大的 mindset shift(思维转换),这促使我从微软亚研院离开,加入了智源研究院。

晚点:你在 21 年时,看到了 OpenAI 的什么做事方法?

曹越:第一是,当时大多数国内研究组还是论文驱动。这带来很多问题,比如论文有作者列表,有一作、二作,本质上不鼓励合作。OpenAI 也发论文,但并不把发表当作核心目标,而是去思考这个领域有什么大的、本质的问题,更加问题驱动。

第二时,当你很关注论文,就会受审稿人品味的影响,去优化所谓创新性,看能不能在方法上搞一些技巧。但 OpenAI 的方法反而很简单,核心就是设计一个 scalable(可规模化)的系统,它能最大化利用算力。

第三点是组织的不同:一个论文驱动的组织,大概率规模比较小,主要合作对象是学生。但如果你要打造一个系统,就需要很多类型的人:有人爬数据、有人洗数据、有人训模型、有人做评测,以及最后做 PR。

这需要一群有相似目标和思维的人,他们都希望把系统做好,而不是关注自己的论文署名排序。当时我不知道这种组织形态是什么,后来我发现,这就是创业公司。

晚点:所以你思考的起点是你想做出更厉害的 AI 技术,然后开始研究这背后的做事方法和组织方法?

曹越:对。那时其实还有一个障碍,就是疫情。从 2020 年到 ChatGPT 出来的两年多里,国内和硅谷的沟通少了很多,很多学术会议都因为疫情变成远程了。这导致国内忽略了 OpenAI 的变化,实际从 2020 年开始,他们已展现出了非常不一样的成果。

这就是我在 2011 年到 2022 年去智源前想得最多的事:为什么他们能做出来这么牛逼的东西?我们应该打造一个怎样的组织?身边有什么人能一起做这件事?

晚点:你当时没想过直接创业吗?

曹越:没有。那个时间点,我对创业的认知没那么深。

晚点:智源当时是什么状态?让你觉得它有可能实现你的想法?

曹越:智源是国内最早一批拥抱大模型的组织,它也是一个新型研发机构,不以发论文为核心指标。智源也很早就在部署算力集群,2022 年年中就有 1500 张 A100 连在一起的集群,当时国内超过 1000 卡的集群非常少。它还有个目标是开源开放,把模型开源,让更多人用起来。

所以它有一个比较宽松的科研环境,你可以筛选出有相似 mindset 的人和你一起做一些更前沿探索;大家的目标也是要构建一个系统。

在我当时的认知里,智源是国内最像 OpenAI 的组织,也是一个很好的,能让我自己做一些探索的组织。

中国为什么没有出现 OpenAI?王慧文说是 “不够富”

“到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?”

晚点:后来怎么开始光年之外的?

曹越:加入智源一段时间后,ChatGPT 就出来了,国内形势瞬间巨变。之前可能大家都没有觉得我加入智源是一个正确的选择。

再后来就是王慧文在朋友圈发英雄帖招募创业伙伴,真正点燃了国内这一波大模型热潮。

晚点:你和王慧文是清华校友,你们之前认识吗?

曹越:不认识。在 ChatGPT 出来之后到认识老王之前,我已经明确知道这是一个大机会,而且还有很大提升空间。我当时也意识到,不管过去是做计算机视觉还是 NLP(自然语言处理)的,都可以参与进来。

因为我已研究 OpenAI 一段时间了,他们的方法论和过去都不同,并不是带着先验的人为经验去看特定任务,而是前面提到的——去思考怎么设计一个 scalable 的系统,使它可以最大化压榨算力。

我也在想,我自己能怎么参与这个事?这首先需要做模型的能力,不仅是能复现,而且要能做前沿探索;还要考虑钱从哪儿来,后续怎么产品化,组织应该怎么建。

晚点:所以这时你已经在考虑自己创业了?

曹越:琢磨过。但结论是,这件事复杂度很高,我自己当时的能力,在于构建一个能训模型的组织,在其它方面缺的很多。所以和老王聊过后,感觉一拍即合。

晚点:他应该聊了很多人,为什么选择了你?

曹越:是,他每聊一个人就会问:你在这个领域最推荐我继续和谁聊?他几乎把当时国内比较好的研究者都聊了一遍。为什么选我?好像没具体提过。可能的原因之一是,我之前就从 MSRA 加入了智源,展现了更多对这个大方向的 conviction(确信)。

晚点:所以王慧文当时也和梁文锋聊过?

曹越:应该是有。我 23 年 3 月那会儿其实只跟老王和梁文锋聊过。

晚点:你和梁文锋聊的契机是?

曹越:也是他找过来。那是 DeepSeek 的筹备期,梁文锋当时也和国内很多研究者都聊了一遍。不过我见他时,已经答应老王了。

晚点:你前面也提到和王慧文是一拍即合,具体怎么契合法?

曹越:我第一次见老王收获就非常多,明显能感到这个人非常强,认知很深,也有很多实战经验。

当时我长期在思考的一个问题是:为什么中国没有出现像 OpenAI 这样的组织?我也问了老王这个问题,他很快给了一个答案:因为国内这些互联网公司,或者说我们的发展阶段,导致我们 “不够富”。

就是说,当我们处于追赶阶段时,前面有明确的目标,你只需要以更快的速度追上,在这个阶段,ROI(投资回报率)最高的是效率创新、模式创新,而非原创性创新。

而当你越来越接近前沿时,前面几乎没人了,方向感会变弱。这时,各个维度都需要思维转换:

对创业者:追赶和原创性创新需要不一样的能力。

对投资人,之前大家追求投 “看明白了” 的事,或 Copy to China 的项目。而现在,这类项目越来越少了;当更原创、有风险的 idea 放到你面前,你敢不敢投?

还有整个社会对失败的态度:原创性探索相比更确定性的追赶肯定会有更多失败,但失败中会涌现成功。失败能不能得到更多包容?失败的公司怎么退出?

相当于整个链路和生态都得变化。老王当时的认知是很深的。到 2025 年再看,确实情况在变化:《哪吒》《黑神话》、DeepSeek、宇树,更多案例在出现。那么再过五年、十年呢?我自己对未来很乐观,我能明确感到我们处在一个转换阶段。

晚点:你问王慧文 “为什么中国没出现 OpenAI?” 他说 “不够富”;而梁文锋做 DeepSeek 时,刚好是相对富的状态。

曹越:如果没记错的话,23 年初聊的那次,梁文锋当时的想法就是希望能在国内做一个 OpenAI 这样的组织,在相当长一段时间里不以商业化为目标。他也认为中国需要越来越多原创式的创新。

晚点:光年之外这段经历中,哪些判断和做法是你自己现在创业依然保持的?哪些会去调整?

曹越:对人的判断没有变:就是招募那些毕业 3-5 年或即将毕业的 PhD(博士生),他们沉浸一线、能力出色、学习状态处于巅峰;不用太在意他之前到底是做 NLP、视觉还是语音。这一点现在可能是共识了,但每个公司意识到的时间不太一样。在 23 年时,光年之外和 DeepSeek 已经是这样招人。所以当时这两家公司的人才竞争最多。

另一个经验是,CEO 的压力还是非常大,所以要照顾好自己身体,控制焦虑。

晚点:这有什么方法吗?

曹越:对我来说,最有效的方法是思考一些人生层面的大问题,它其实能促使你去关注过程本身。

晚点:之前我们聊到,今年 3 月 DeepSeek 大火后,你和梁文峰又见过。这缓解了你的焦虑,为什么会如此?

曹越:当时外界对 DeepSeek 很亢奋,但他自己挺平静。其实在那个状态下,要保持平常心超级难。我见过他后,也会有意少去关注那些可能给我输入噪音的渠道。

“创业后,突然感觉什么都对了”

“这件事的另一面是,极致地追求个人成长。就像芒格说的:要得到你想要的某样东西,最可靠的办法是让你自己配得上它。”

晚点:光年之外结束时,至少对外界来说是非常突然的。你当时是什么感受?

曹越:没能继续往前走,肯定会有失落。但那时我和袁老师(袁进辉)还要处理很多事,包括组织里的同学后续怎么平滑过渡等等。所以静下来是过了一段时间了。

晚点:那应该是 2023 年夏天之后,你开始筹划创立 Sand.ai 了。这是一个怎样的过程?

曹越:那时在广泛地看,是应该自己创业,还是再加入一家公司。后来还是决定自己创业,看了一些方向后决定做 AI 视频生成。

这是一个找交集的过程:什么事会让自己兴奋?有没有合适的团队一起做?这个领域是否空间够大?同时未来还有巨大提升空间?

晚点:这有点像你做研究时选 topic 的思路:重要的,且有巨大提升空间的?

曹越:是的,AI 视频生成当时还比较早期,Sora(第一代)还没出现;它的潜力非常大,技术侧如此,商业侧也是:它是一个你在解锁不同能力后,就能解锁不同场景和需求的方向,能持续很长时间。

晚点:为什么没有再加入一家公司?

曹越:经历光年之外后,很难再加入一家其它公司。老王一开始找的人都非常对,他找人的方法很对,从技术侧的 Infra、模型再到产品、融资、商业化的完整性也很强。我们在任何维度都不输其它公司。我也不知道这个心态对不对,但当时真实感受就是,我很难决定再加入另一家公司。

晚点:创业本身对你的吸引力是什么?

曹越我发现创业特别适合我,突然感觉什么都对了。你应该能感觉到,我不是一个非常典型的研究者。相比把一件事钻得特别深,我更关注领域的大方向,关注人和组织。虽然科研也做得还不错,但我也没有强烈地想去拿教职。

那段时间我也一直在想自己是个什么样的人?最核心的自我觉察是:ambitious,这是我的底层驱动力。

晚点:Ambitious 之于你具体意味着什么?是想做成一件事儿,还是想赢?

曹越:是希望能做成一件对世界有很大影响力的事。这件事的另一面是,极致地追求个人成长。就像芒格说的:“要得到你想要的某样东西,最可靠的办法是让你自己配得上它。” 当你能对事物能有深刻认知,并能充分训练自己的能力,你才有可能做出对世界有巨大影响力的事。

回溯自己过去 5 到 10 年的各种决策 ,我发现都是由 ambition 驱动的:比如看到 OpenAI 的 CLIP 和 DALL-E 时,有人的反应是 “这事我做不了,我就说它不好”。而我的第一反应是:为什么我们做不了?难道我们就比他们笨,比他们菜吗?我觉得不是,这和组织方式有关。当我看到和自己技能相似的人能做出非常大的成就时,我希望自己也能做出有类似影响力的事。

所以真的了解创业后,突然感觉什么都对了:它需要一个人有相对全面的能力,它的天花板也非常高,能做成的事情非常多样化;它对一个人的考验也是地狱模式,会促使个人极致成长。

晚点:你选择 AI 视频,和它不在核心大模型公司的最主轴有关吗?

曹越:竞争是一个维度,但不是决策的主轴。本质还是因为 AI 视频方向的技术和商业天花板都很高。它在那个阶段甚至都没有好用的模型。所以它非常适合我这样模型背景的创始人。而直接做大语言模型,那个时间点肯定比较晚了。

晚点:Sand.ai 正式成立、运营是 2024 年 1 月,正式发布第一个模型 Magi-1 是 2025 年 4 月,为什么花了一年多这么久?

曹越:因为我们选择了自回归(Autoregressive)这个路线。还是低估了这个路线的难度。

晚点:为什么选择自回归?为什么它做起来比较难?

曹越:学界做自回归比较早。GPT 出现后,一些团队在 2020 年、2021 年就在尝试。当时大家对自回归的理解是,用一个模型结构同时处理语言、图像和视频。但也是因为它要和语言模型端到端地做在一起,所以一开始的效果没有一些传统的扩散模型好。

我们 24 年用自回归做视频生成时,是认为视频的数据类型天然就是持续顺序播放的,这和语言类似,语言也是顺序去看的。能最大化压缩语言信息的训练方式就是预测下一个 Token。对视频而言,最大化压缩视频信息的方法是不是也是持续顺序地做预测?时至今日,我也觉得这个直觉是对的。

但是这个思路很新,没有好的 reference(参考)。探索过程中,在数据、算法、Infra、预训练、后训练、评测环节,都要做非常多从 0 到 1 的工作,而且每个环节都得做到极致,效果才会好,这对一个刚搭建的团队挑战很大,也确实会面临人手短缺。

晚点:你们在 24 年到 25 年做 Magi-1 时,有多少人?

曹越:三四十人。在那个阶段,一方面是对业务侧的敏感度不够——业务还是需要交付快、迭代快;另一方面,是有些低估做一个新型模型的难度。最终导致了 Magi-1 发布时间相对晚。

晚点:这是否让你们错过了一些业务窗口?

曹越:纯画面、单个素材的生成此前就已经卷到了一个相对收敛的阶段。今年涌现的新能力是音画同出、叙事。

之前训练 Magi-1 的经验,让组织依然有能力训一个不错的自回归模型;同时在新阶段,我们希望能做好以人物表演能力为核心的视频生成模型。算法侧会以更快交付和迭代为目标,这是和做 Magi-1 时不太一样的。

现在的关键是要抓住音画同出的这个窗口。对专业创作者而言,音画同出能力可以生成非常真实的人物。而对大众消费者,它能比较低门槛地去生成一个好看、好玩、可以传给朋友的视频,可消费,能社交。

“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”

“OpenAI 做到了从产研到模型的较好垂直整合:在对齐目标后,产品需求的梯度可以回传到模型团队。”

晚点:刚好在我们这次聊的几天前,OpenAI 突然发布 Sora 2 和 Sora App,它的特点就是音画同出,而且有一些社交玩法。我知道你第一时间用了这个产品,最大的感受是什么?

曹越:模型层面 Sora 2 有 3 个特性:音画同出、能保人物 ID,但最让我惊艳的还是,它在一个约 10 秒的时长里做到了基础叙事,因为它有分镜能力。而之前更主流的思路是用 Agent 来实现叙事,比如一个语言模型负责脚本;一个分镜模型负责分镜生图,然后图生视频;再有配乐的相应模型等等。

OpenAI 非常创新的一点是,它用一个端到端的模型直出了带叙事的 10 秒短片。

晚点:这是不是和 Sora 2 更重视 C 端用户有关。因为更专业的影像内容制作者可能需要 Agent 这种方式去更精细地控制美术风格、分镜和声音。

曹越:可能是一个反过来的过程,有了模型能力提升,才联想到了 C 端场景。

为什么之前大家倾向 Agent?因为早期模型不能音画同出,也不能分镜。这时,一个视频生成模型只是制作流程里的一环,仍需要人来设计脚本、分镜和配乐……从这个工作流延伸,自然的思路是,能否用 Agent 去替代人?

但 OpenAI 的思路是,为什么不能让模型端到端直出叙事能力?这是一个大变化。当然它的前置条件还是模型进展——只有画面、没有声音的视频,一般人是不想看的。最早做出音画同出的人更有可能最先意识到,原来模型可以直出一个 C 端可消费的视频。

晚点:你觉得 OpenAI 是怎么实现端到端完成叙事能力的?

曹越:这次的技术报告很模糊,我推测,Sora 2 仍基于 Diffusion (扩散模型),但不能确定是双向的还是单向的。不过从技术上,这些进展都可以预期,没有什么石破天惊的 idea:Google 5 月发的 Veo 3 已能音画同出;而保人物 ID,关键是视觉和声音的一致性,这也是被研究已久的方向。即使是叙事能力,在 Sora 之前也有模型已具备分镜功能,Sora 2 确实分镜做得更好。

真正让我有认知迭代的是 OpenAI 的组织力。我个人认为,OpenAI 做到了从产研到模型的较好垂直整合:就是在对齐目标后,产品需求的梯度是可以回传到模型团队的。整个组织就是 “端到端” 的。

当产品想实现某个能力时,他们的第一反应不是通过模型组合或产品侧研发来达到目的,而是问:能不能把它直接做到模型里?

具体到 Sora 2,他们也许在某一阶段对齐了目标,是要做 “叙事短片”,接着模型团队定义内部 benchmark(基准),然后通过模型侧优化完成目标,释放能力。

我感觉,OpenAI 里,很多人共有的一种解决问题的哲学就是,如果一个问题有机会被端到端解决,就应该优先被端到端解决。

其实回顾大语言模型,OpenAI 也有类似的脉络:在 2020 年 6 月 GPT-3 出现后,OpenAI 的阶段性重点就是把 GPT-3 对齐成普通人能用起来的界面。这其实就是一次垂直整合,是从需求侧去看怎么用 GPT-3,所以有了之后的 InstructGPT,有了整个后训练过程,再到 SFT(监督微调)和 RL(强化学习)。这是一个你有了基础模型后,怎么让人用起来的过程。(注:2022 年 1 月对外公布的 InstructGPT 在 GPT-3 基础上,引入了基于人类反馈的强化学习即 RLHF,让模型能生成更符合人类意图、习惯和偏好的回答。)

这体现了 OpenAI 当时就拥有一种产品 sense,或者说,是从模型到产品的端到端优化能力。

Gaga-1 专注解决人物表演,这是叙事内容最大的卡点

“之前大家在群聊里斗表情包,当视频生成足够简单,也可以斗视频。”

晚点:Sand.ai 也在十一之后发了新模型 Gaga-1,它的特点是什么?

曹越:我们的新模型能音画同出,主要聚焦人物说话和表演。这之前,只有画面的视频生成内容只能满足叙事片中的 B-roll(如空镜、转场等),但对 A-roll(有人物和角色表演的部分)就不行了。比如先生成画面再用 AI 对口型,看起来会很怪,很难跨越 “恐怖谷”,达不到普通人的消费门槛。而大家消费的绝大多数视频里,一半以上的画面都是人。很多短剧、广告片从业者也告诉我们,过去模型最大的卡点就是 “人物太假,没有表演”。

所以今年年中开始做这一代模型时,我们的目标就是优先解决好人物表演,这需要做好人物一致性、情绪表达、音画同出等能力。

晚点:在那个时间点,这个洞察是行业共识,还是一个相对独特的判断?

曹越:从结果看,当时大家并不是都把这个当重点。这背后是,你到底是从需求出发,还是从技术出发?我们认为应该更多从需求出发;同时能做技术判断,知道什么可实现、什么不可实现,这就更容易找到需求和模型的契合点。

晚点:Gaga-1 服务的用户是谁?优先级排序是怎样的?

曹越:有两类,第一类就是叙事内容的专业创作者,比如 AI 短剧、投放素材、广告宣传片的制作者。这些内容都需要生动的人物表演。

第二类就是不同 C 端消费者,当视频可以音画同出时,它对普通人真的到了一个 for fun 的临界点。之前大家在群聊里斗表情包,那当视频生成足够简单,也可以 “斗视频”;过去用语言表达不足以传递的情绪、情感,也可以用视频,这是一个天然的社交传播场景。

目前短剧制作者等相对专业的用户优先级最高,我们 10 月 11 日发布的 Gaga 线上产品,就能让大家能充分体验模型能力。

晚点:什么时间点可能会做 C 端产品?

曹越:正在计划中。我们目前认为,模型具备叙事能力后再做 C 端比较合适。它很有可能是个 APP,但需要花更多时间打磨定位,它也会是一个从模型到产品的端到端设计。OpenAI 确实给大家提供了很多启发。

晚点:你们现在的重点用户是叙事内容制者,他们很看重成本,Gaga-1 能做到什么水平?

曹越:我们场景相对聚焦,所以这代模型成本控制得比较好,不到 Sora 最便宜版本的 1/10。在这之前,实际上做一部 AI 短剧,即使表演还不太好的情况下,它和实拍间的成本差距也没有那么大。(注:Sora 2 最便宜的标准版,每秒收费 0.10 美元,可生成 720p 分辨率的视频。)

晚点:短剧之前实拍成本是多少?现在你们的模型能帮助降到多少?

曹越:21 年左右,实拍一部总长 60 到 100 分钟的短剧,总成本是 10 万左右。后来行业卷起来了,到 23 年大概要 30-40 万,甚至更高,现在略有回落。

而如果用 AI 做,之前主流价格是每分钟 2000 到 5000 元,一部剧的大致成本在 20-40 万元。但问题是,即使花了这么多钱,AI 短剧的质量还是没法和实拍比。而在我们现在已经做到了 1 分钟 1 美元以下,还有盈利空间,成本下降了非常多。

晚点:Gaga-1 的发布时间刚好赶上 Sora 2 之后,这对你们是怎样的影响?前段时间我也和 Lovart 陈冕聊了 Sora,他认为巨头会加速投入类似的 AI to C 和社交产品,因为做成的收益很高,错过的代价又太大。这会不会挤压小公司 “猥琐发育” 的空间?

曹越:没有 Sora,整个视频方向也很受重视,本来就挺难 “猥琐发育”。但坦率说,大公司虽然投入很大,但动作不会那么快。同时,Sora App 是否真是一个 C 端平台机会,还需要观察。我认为,新 C 端平台至少有两个直接条件:是否是一种新的内容形态,是否有新的传播链路。到目前为止,Sora 在这两点上没有颠覆性的表现,它还是更像一个工具,很多人会用 Sora 做好视频,再发到朋友圈、小红书、抖音、快手。

晚点:你会以哪些指标去观察 Sora 未来能否成为一个 C 端新平台?

曹越:最关键的还是留存,至少能先满足一部分人的长期需求。再往后它能不能成为一个大的 C 端平台?现在没有人有答案。

垂直整合组织的核心就是:不同背景的人能对齐上下文

“产品的人更理解模型,模型的人更理解产品。”

晚点:从 Magi-1 到 Gaga-1,Sand.ai 经历了从更侧重模型驱动,到产品需求和模型训练做 “垂直整合” 的转变,这是怎么发生的?

曹越:核心还是在于,对创业公司,跑通 PMF(产品市场契合)更重要。过于强调技术驱动,可能很难取得阶段性的用户或商业化目标;但如果完全从需求出发,又有可能技术落后。怎么平衡这两部分是最难的。

晚点:逻辑上好像理应如此。但为什么一开始很难做到?

曹越:这个阶段本质还是技术驱动的。懂 PMF(产品市场契合)产品经理或商业化的人,需要时间去理解模型的边界和发展方向;而做模型的人,特别是最顶尖的那批人,他们之前大部分没做过产品和业务。两边都要去补另一边的能力。我自己就花了很多时间去学习怎么做产品化、商业化,怎么做组织。我目前的认知是:需要建立一个更 “端到端优化” 的组织,也就是一个垂直整合的组织。

晚点:有了这个认知后,你自己和你们团队有什么变化?

曹越:核心就是把模型、产品和运营的人混合起来。其实就是让大家有更多交流,“对齐上下文”。比如让你认为技术和产品的最关键的人之间相互 one-on-one(1 对 1 沟通);让我自己成为一个重要的分发中心——作为算法出身的人,我今年花了最多时间在产品运营。这样,至少跟我沟通的人,上下文都是非常对齐的,组织里其它同学再和他们对齐。

我觉得一个垂直组织最核心的就是:不同背景的人,能逐渐对齐共同的上下文。产品的人更理解模型,模型的人更理解产品。

晚点:你现在怎么看 “模型即产品”?

曹越:最早大家说 “模型即产品”,是表达不需要在产品和运营侧过多 “雕花”,稍微有点儿产品要跟着模型走的意思。早期时可能确实如此,产品就是为了最大化展现模型能力,而不要加入太多产品侧先验。

但垂直整合比这要更进一步,如果产品设计得足够好,它不仅能展现模型能力,也能在能力相似的情况下,放大模型体验。Sora 2 里的 Cameo 就是个例子:这首先来自模型现在能音画同出,所以你可以把人植入进去。那这怎么成为一个 C 端产品功能点?OpenAI 做了一系列设计:邀请码拉新、@ 熟人合拍、Cameo 授权分层等。模型和产品互相放大。所以在现在这个阶段,产品也有很多可以迭代的空间。

晚点在 Gaga-1 和对应的产品上,你们自己是怎么实践“垂直整合”的?

曹越:新模型的核心是能够生成逼真的人物表演。然后是这个目标实现后,哪些功能特别重要。一个例子是保 ID,就是人物形象、样貌、音色的一致性。

这些表象变化的背后还是组织的垂直整合,是从产品到模型,先对齐了 “人物表演”、“保 ID” 这些优先级。如果是纯产品公司,只能调模型 API,它首先很难根据产品侧对功能的优先级,去调整模型优化方向,同时,也很难通过模型侧去优化去实现其它产品没有的独特用户体验。

从研究员到 CEO

“没有喜欢或不喜欢,更像是两个角色之间存在夹角,需要时间去磨合。”

晚点:我知道你除了通过和人聊来学习、思考之外,也很喜欢和大语言模型聊。你和 Gemini 聊得挺多的。

曹越:全球最强的模型已经非常强了,只是很多人还没意识到这一点。

我上一次明确感受到它的能力,是今年 5 月我们团队在讨论一个算法问题,有人把问题丢给了 Gemini 2.5 Pro,它不仅补全了讨论中被忽略的部分,还提出了一个相当靠谱的解决方案。我们当时开玩笑说这是 Vibe Research。

之后我开始经常和它讨论,发现了几个有意思的地方:

第一,人类思考常靠类比,但类比是危险的,因为两个事物间既有相似也有不相似。语言模型特别擅长拆解类比——它能准确指出两者的关联、不关联,以及原因,让你看到那个 “看似相关、其实不然” 的结构。

第二,它是一个极强的结构化工具。比如我思考一个问题,会把想到的零散点输入给模型,它能迅速把碎片整理成有逻辑的结构。

所以它已经成了我的思考伙伴,“Gemini 老师”。每天我可能会花一两个小时跟它聊各种问题,它能不断抛出新视角,帮我理解得更本质。

晚点:你会信任大模型更胜于人吗?比如当一个人和 Gemini 给你讲同一个观点时,你的反应会有何不同?

曹越:人与人之间最难的,是对齐上下文。当我说出一个想法时,背后有大量前提,但我只能把它压缩成几十个字,听的人也只能接收这几十个字。要真正对齐,我们得花半小时、一小时去补全背景,对双方都很消耗。

而语言模型在这点上非常强。比如产品同学和算法同学讨论时,一段话里可能有三四个需要背景知识的概念;算法同学就可以把这段话发给模型,告知模型说话人的背景,让它补全语境,帮助理解。我会带头这么做。

所以这不是更信任谁的问题,而是模型能显著降低人与人交流的摩擦,桥接人和人之间的认知差。这是一种底层变革,多数人还没意识到这一点。

晚点:这是不是本身也可以被做成 AI 应用?

曹越:我知道一些朋友在做类似的,比如 AI 约会助手 app——男生截一张聊天问模型:“她这话什么意思?” 女生也会问 “他在暗示什么?” 这个场景的本质就是帮人补齐上下文。

上下文差异和两件事有关:一是人与人的背景差异:性别、文化、成长环境;二是和聊的话题有关,比如算法同学听产品术语,可能晦涩,反之亦然。而语言模型掌握世界上几乎所有的公共知识,所以能比大多数人更快听懂另一个人说什么。

晚点:你最近和一些真人交流,有什么收获和启发?

曹越:现在应该能体会到,和人交流的启发没有和 Gemini 大(笑)。

其实最直接的收获来自潜在客户,前阵子和影视行业一位前辈聊,他说了一句让我印象很深的话:“所有内容的终局都是叙事。” 叙事是让内容成立的基本结构:短视频最早是 “记录美好生活”,后来是卷观看体验,哪怕只有 15 秒;包括你做一个 up 主,人设也是一种叙事。

晚点:你之前有一段时间的微信签名是:“想想伊利亚(Ilya,OpenAI 前首席科学家)怎么想?” 现在的学习对象发生了什么变化?

曹越:那是我研究 OpenAI 比较多的那几年。现在我会想得更广——老王、一鸣、李想、雷军……从这些人的思维方式里抽象出他们看问题的角度。最开始也许只能体会其中一层,但可以在实践里继续验证。

晚点:你和王慧文一起创业时,从他身上学到了什么?

曹越:我第一次和他聊到想做 AI 视频方向时,他就给了我一个建议:去研究一下皮克斯,这家公司的商业模式很好。皮克斯的启发在于,它从图形学技术出发做电影,票房只是第一步,更关键的是角色 IP 留在公司,可以长期运营与变现。而真人电影的角色心智却会被演员带走,制片公司很难持续沉淀 IP 资产。所以皮克斯既有影视业的叙事生产属性,又具备 IP 产业的可持续收益属性,而且一切源于技术驱动。

晚点:从研究者到创业者的转变中,哪些部分是你喜欢的?哪些部分是你不喜欢,但不得不适应的?

曹越:这没有喜欢或不喜欢,更像是两个角色之间存在夹角,需要时间去磨合。从一开始更多琢磨什么技术影响力更大,到关注什么系统影响力更大,再到更多关注产品和商业价值。

晚点:你现在最优先级的工作是什么?

曹越:就是理解清楚 AI 视频的方向,识别未来一段时间里的最大机会;打造 Sand.ai 的组织,抓住这个机会。

晚点:你已经看到一些眉目了?

曹越:AI 视频的核心逻辑,是语言、图像、视频、声音等模型的能力进化。它短期仍然更像一个工具型机会。但随着模型越来越稳定、输出质量越来越高,就有可能出现 C 端机会。这在真正思考过行业的人之间应该是共识。

没有共识的是 timing(时机),这也是最判断的,现在没法讲太多。本质上就是你要在判断时机后,提前为那个方向做准备。这也考验组织的节奏感和行动力。哪怕你判断对了方向,如果组织的节奏跟不上,也会错过机会。所以我现在才特别关注组织。

晚点:最后一个问题——分享一个你最近在思考、或者接下来想验证的问题。

曹越:我有时会想一个开放性问题:ASI(超级智能)什么时候会出现?当它真的出现,会以怎样的方式改变世界?语言模型的智力水平其实在持续提升——如果粗略类比人类的智商曲线,它已经从几十提升到一百,未来可能到一千。它和人之间的差距,可能就像人和猴子的差距那么大。大人和小孩智力差别,已足以让前者 “哄住” 后者。那么一个智力远超人类数倍的系统,会如何看待和影响人类社会呢?

题图来源:Sand.ai

AI 创业访谈

该系列将持续呈现多样 AI 创业者的思考与实践。

↓ 往期文章 

Lovart 陈冕

阅读文章

测测 任永亮

阅读文章

爱诗 王长虎、谢绪璋

阅读文章

Flowith Derek

阅读文章

心识宇宙 陶芳波

阅读文章

千里科技 印奇

阅读文章

Pokee.ai 朱哲清

阅读文章

Haivivi 李勇

阅读文章

YouWare 明超平

阅读文章

百川智能 王小川

阅读文章

MiniMax 闫俊杰

阅读文章

零一万物 李开复

阅读文章

- FIN -

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

曹越 AI 创业 人工智能 大模型 视频生成 OpenAI 组织力 Swin Transformer Sand.ai Gaga-1 垂直整合 AI视频 Researcher Entrepreneur AI Video Generation Vertical Integration LLM Deep Learning Tech Evolution
相关文章