DeepTech深科技 09月17日
AI视频生成技术解析:工作原理与挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,AI视频生成技术迎来爆发式发展,OpenAI的Sora、谷歌DeepMind的Veo 3以及Runway的Gen-4等工具能够生成高度逼真的视频片段。Netflix也首次在剧集中大规模使用AI生成特效。尽管演示效果惊人,但AI视频生成面临多重挑战:内容竞争激烈、虚假信息传播以及极高的能耗。文章深入探讨了当前主流的潜在扩散Transformer(latent diffusion transformers)技术,解释了其从噪声恢复图像的原理,以及如何通过Transformer模型实现视频帧间的一致性。同时,也介绍了Veo 3在生成音频方面的突破,并展望了扩散模型在语言模型领域的应用前景。

✨ **AI视频生成技术日新月异,涌现出Sora、Veo 3等先进工具**。这些技术能够生成与真实拍摄或CGI动画难以区分的视频片段,并已开始应用于大众电视制作领域,如Netflix的《永恒宇航员》。这标志着AI视频生成正从实验室走向实际应用,为创作者提供了强大的内容创作能力。

💡 **潜在扩散Transformer(latent diffusion transformers)是当前主流的视频生成核心技术**。其工作原理是通过神经网络学习从随机噪声中逐步恢复出清晰的图像或视频帧。模型通过海量图文或图像-视频配对数据进行训练,理解文本提示词并生成与之匹配的内容。为处理视频帧间的一致性,该技术常结合Transformer模型,将视频切分成小片段,确保连贯性并克服物体消失等问题。

⚡ **AI视频生成面临高能耗和内容质量参差不齐的挑战**。相比文本或图像生成,视频生成需要处理的数据量更大,因此能耗极高。此外,模型生成的视频质量受训练数据的影响,可能包含偏见或不准确信息,且用户往往需要多次尝试才能获得满意结果。Veo 3在生成音频方面取得了突破,实现了声画同步,标志着视频生成向更全面的多模态体验迈进。

🚀 **扩散模型正拓展其应用边界,有望颠覆现有技术格局**。除了视频生成,扩散模型在音频处理和语言模型领域也展现出巨大潜力。DeepMind正在开发基于扩散模型的实验性语言模型,预示着未来可能出现比现有Transformer模型更高效的语言处理工具。这表明扩散模型正成为AI领域的一项关键通用技术。

W.Douglas Heaven 2025-09-17 20:04 北京

过去的几个月里,视频生成迎来了爆发式发展:OpenAI 发布了 Sora,谷歌 DeepMind 推出了 Veo 3,初创公司 Runway 也上线了 Gen-4。这些工具都能生成几乎无法与真实拍摄或 CGI 动画区分的视频片段。与此同时,Netflix 在其剧集《永恒宇航员》(The Eternaut)中首次大规模使用 AI 生成视觉特效,这是生成视频技术首次进入大众电视制作领域。

当然,演示片段往往是“精挑细选”,展示了模型最理想的表现。但随着这类技术被越来越多的用户掌握,哪怕是最普通的创作者,如今也能轻松做出令人惊艳的内容。然而,弊端也随之而来:创作者们不得不与大量的 AI“流水线作品”竞争,社交媒体的信息流也正被虚假的新闻视频填满。更重要的是,视频生成的能耗极高,比文本或图像生成要高出许多倍。

既然 AI 视频已经无处不在,不妨花点时间,聊聊它背后的核心技术。

现在市面上有一系列高端工具,专业的视频制作人或许会把生成模型嵌入他们的工作流中,但对大多数人来说,只需在应用或网站上输入指令即可。比如输入:“嗨,Gemini,给我生成一段独角兽吃意大利面的影片。”返回的结果可能时好时坏,通常需要多试几次,甚至十几次,才能得到相对满意的版本。

那么问题来了:为什么生成结果参差不齐?为什么这么耗能? 答案是:如今的主流视频生成模型多采用潜在扩散 Transformer(latent diffusion transformers)。

想象一下:你有一张清晰的图片,给它加一层随机像素噪声,再加一层,如此反复,最后你得到的就是一片像老电视机雪花一样的“随机像素海”。

扩散模型(diffusion model)就是一个神经网络,被训练来逆转这一过程,从杂乱的像素中逐步恢复出图像。训练时,模型会看到数以百万计的不同时期加噪图像,并学习如何一步步还原。

因此,当用户输入一个文本提示词时,扩散模型会先生成一张随机噪声图,然后在语言模型的引导下,逐步把它修复成与你提示相符的图像。

这里的语言模型之所以能“对号入座”,是因为大多数生成模型都用到了从互联网上抓取的海量图文或图像-视频配对数据进行训练。这意味着模型学到的世界观,本质上是互联网内容的“蒸馏版”,不可避免地夹杂着偏见和不良信息。

图像之外,扩散模型也能应用于音频、视频等数据类型。区别在于:视频生成不是修复单张图片,而是要保证帧与帧之间的一致性。

直接处理视频的像素数据计算量巨大,因此大多数视频生成模型都采用潜在扩散(latent diffusion)技术。这意味着模型并不直接处理数百万像素,而是先把视频帧和文本提示压缩到一个潜在空间,即“数学编码”。在这个空间里,数据只保留核心特征,大大降低了计算量。

就像在线视频播放,视频会被压缩传输,等到播放时再解压还原。潜在扩散的过程类似,模型在潜在空间中一步步修复出视频的编码,最后再解码成用户可以观看的真实视频。

相比常规扩散模型,潜在扩散效率更高。但即便如此,视频生成依然比图像和文本耗能得多。

要让生成的视频在连续帧之间保持一致性,光靠扩散模型还不够。OpenAI 在 Sora 中提出,把Transformer 融入扩散模型中,这已经成为行业标准。

Transformer 本是用来处理长序列数据的,比如自然语言模型 GPT-5、Gemini 都依赖它来生成连贯的长文本。视频生成借鉴了这一点:把视频切分成一个个小“立方体片段”,再用 Transformer 来保持整体连贯性。

这样一来,生成的视频不再出现“物体突然消失”的问题,尺寸和方向也不受限制,模型可以同时学习短视频和宽屏大片,从而大幅提升生成质量。

Veo 3 带来的一大突破,是首次能在生成视频的同时生成音频,包括对口型的对白、环境音效、背景音乐等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所说:“我们正在走出视频生成的‘无声时代’。”

技术上的难点在于如何把音频和视频对齐。DeepMind 的解决方案是:在扩散模型中,把音频和视频压缩到同一个数据流里,让它们在生成过程中同步解码,确保声画匹配。

值得注意的是,扩散模型和大型语言模型(LLM)之间的界限正在模糊。今年夏天,DeepMind 就透露正在开发一种基于扩散模型的实验性语言模型

虽然视频生成(使用扩散模型)会消耗大量能量,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型而非 Transformer 来生成文本,谷歌 DeepMind 的全新 LLM 可能会比现有的 LLM 更高效。期待在不久的将来看到更多来自扩散模型的成果!

原文链接:

1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频生成 Sora Veo 3 Latent Diffusion Transformers 扩散模型 Transformer AI技术 能源消耗 AI video generation Diffusion Models AI Technology Energy Consumption
相关文章