百度蒸汽机升级：AI长视频生成突破时长限制

机器之心报道

机器之心编辑部

AI 视频生成行业天花板再次被拉高。

百度杀入 AI 视频生成赛道后，就一直加班加点卷个不停。

7 月初，百度第一次正式官宣蒸汽机 1.0 模型，以极致指令遵循能力惊艳亮相；8 月底，百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0，实现生成视频中人物口型、表情、动作的毫秒级同步。

而现在，距离上次发布仅短短一个月，百度蒸汽机 2.0 又迎来重磅升级，推出了行业首个通用 AI 长视频生成功能。

此次升级，百度蒸汽机不仅突破了 5 秒和 10 秒的生成时长限制，理论上可生成任意长度的长视频，还引入交互式需求表达功能，允许在生成过程中实时更新提示词。这意味着创作者可以随时调整视频内容，创作体验更为灵活高效。

长视频生成对 AI 模型提出了更高要求，模型需要具备对时间、空间的深度理解能力，同时要能精确控制信息密度和视觉连贯性，这一直是该领域的技术难点。

为延长视频时长，业内普遍采用「首尾帧续写」技术，或者视频延长的简单续写能力，虽然能勉强填补时长空白，但容易导致视频缺乏连贯性，画质和细节呈现不稳定，难以承载复杂的创作需求。同时首尾帧续写需要用户每个镜头需要上传图片以及提示词，一个镜头普遍 1-6 秒，生成几十秒成片可能需要 10 组以上图片和提示词描述，操作门槛非常高，且很难实现无限时生成。

与这一浅层技术方案不同，百度蒸汽机采用流式生成技术，用户只需输入图像和提示词，就能生成任意时长的视频，并可以在生成过程中随时调整提示词，实时续写内容或指定任意帧继续生成，用户无需复杂操作，只需要一张图 + 提示词，即可完成无限时视频生成。如果对于前面的内容不满意，可以马上暂停调整，不需要完整推理过程结束，区别于行业其他长视频技术能力，百度蒸汽机的长视频生成能力不仅仅大幅度提升了创作效率，还可以实现灵活、流畅的创作体验。

首尾帧续写长视频能力

百度蒸汽机流式生成长视频能力

百度蒸汽机的这次迭代升级，不仅是技术上的一次革新，也在商业应用层面带来新的可能性。创作者可以在短时间内完成高质量长视频制作，降低了创作成本，提高内容产出效率，为各行业内容创作提供了新的工具和商业价值。

在下面这段蒸汽机长视频生成的视频中，小鸭子划水、上岸等动作连贯流畅，没有出现卡顿或不自然的现象，水面的涟漪、小鸭子的羽毛等细节也都处理得细腻逼真。

提示词：小鸭子在水中嬉戏，有几只喝水，有几只划水，接下来排着队往前游，游到了岸边，拍打着小翅膀，往前边的草地上走去。

再比如，蒸汽机长视频模型还成功生成了一段西部牛仔风格视频，效果堪比电影大片。

该模型能够精准执行复杂的镜头运动与人物动作，在提示词的指引下，以一镜到底的方式呈现出牛仔走向马车、推门而入等场景转换。

镜头跟随、人物动作以及视角切换的衔接都很丝滑，尤其是在人物向前走和镜头右摇的场景中，模型能够精确控制镜头的角度与人物的位置变化，保持画面的自然过渡。

提示词：1-5s 镜头跟随，牛仔走向右方马车。6-10s 人物向前走，镜头跟随。11-15s 人物向前走，镜头跟随，右摇 16-20s 镜头跟随，牛仔推开门进去。

在另一段长视频中，蒸汽机 2.0 真实还原了水流的动态变化以及小纸船在水面上漂动的轨迹，画面没有任何破绽或失真的情况，细节把控也很到位。

提示词：小纸船在小河里漂流。

本次百度蒸汽机还发布了首尾帧功能，支持用户提供首尾帧2张图片和提示词可完成图片的理解和5S视频生成，为创作者提供更便利的视频片段生成能力。

提示词：黄色折纸在工作台上逐步折叠，变形为彩色折纸猴，定格动画逐帧展现折纸过程，固定镜头。

我们只需上传首尾帧图片并输入提示词，蒸汽机 2.0 便能「脑补」出中间的剧情，实现完整的画面衔接。

比如一段电影风格的镜头中，平静的水面突然冒出三个全副武装、手持冲锋枪的士兵，生成的画面几乎可以以假乱真：

提示词：固定镜头，平静的水面荡起波纹，三个士兵慢慢露出水面，他警惕的看着四周。

还有这个动漫风格的镜头，即使二次元小姐姐转个圈也能保持前后人物一致性，角色面部不会崩坏：

提示词：镜头环绕着人物

首尾帧功能特别适用于延时摄影。蒸汽机生成了一段树木从秋季黄叶到冬季积雪的自然变化，季节过渡平滑自然，树叶飘落与雪花覆盖的细节也处理得很细腻。

提示词：固定镜头大延时摄影，天⽓变化到冬天，背景云雾变化。

在商业化场景中，百度蒸汽机还能制作各类广告大片。在下面的案例中，只见镜头慢慢拉远，光泽感十足的耳机被拿在手中，流线型的反射效果显得极具质感，生成的手部非常自然，手指与物体的衔接部分也毫无违和感。

提示词：耳机合上盖子，伸出一只手拿着耳机。

此外，百度蒸汽机在 8 月还率先推出「多人对话音视频一体化生成」能力，也是全球首个中文音视频一体化生成模型，该模型基于多模态信息的精准同步与自然交互，支持多角色自然对话，并保持高画质输出、大师级运镜。依托海量中文语料深度训练，中文语音细节还原度超 98%。

现在，所有用户都可以通过百度搜索、百度 APP 或访问「绘想」平台进行体验。

体验链接：https://huixiang.baidu.com

可交互长视频生成的难点在哪？

现阶段，AI 视频生成虽然发展迅猛，目前行业内视频生成均集中在 5s/10s，且由于视频生成多采用基于 transformer 的扩散模型，在生成时长和实时性方面仍然存在很大的局限（生成时间长，且生成成本随生成时长呈平长级膨胀，不支持实时生成也无法交互）。较短的视频在应用上主要在工具层面，集中在视频片段、视频素材制作上，而互动视频、直播场景对视频时长和实时性都提出了更高的要求。同时，可交互的长视频生成技术可能重塑人类与媒介的互动方式，从「被动消费」转向「共同创作」，甚至催生全新的艺术形式与商业模式。

挑战 1 ：时长

长视频生成中存在长上下文记忆难题，模型需在长时间范围内有效保留和检索关键事件，同时避免信息崩溃或漂移。

遗忘的问题：模型在生成长视频时，难以长期记忆早期帧的内容，导致时间维度上存在不一致

漂移的问题：生成过程中误差逐帧累积，导致生成的视觉质量逐渐下降。随着生成时长的增加，简单续写的方式，累积误差问题逐渐加剧，生成视频质量不断衰减，主体一致性逐渐下降。

挑战 2 ：成本

由于视频生成模型中 Transformer 的二次复杂度，导致计算成本随着视频生成时长呈平方级增长。直接训练或推理更长视频，对 GPU 显存和计算效率提出更高要求，成本膨胀严重。

蒸汽机的解法与思考：

从分治到全局，引入自回归扩散模型

结合自回归长序列能力和扩散一致性强的优点

1.引入长时间一致性建模技术，解决长的问题：连续性 + 一致性

从全局整体生成到局部生成

动态缓冲区管理：通过「移动缓冲区」机制实时管理多帧画面，允许模型同时处理模糊草图、半完成帧与高精度画面，实现「边生成边调整」的实时交互。

阶梯独立噪声构造

独立噪声：基于时间步采样，为视频扩散模型的每一帧添加不同强度的噪声。根据噪声调度器曲线，每一个预测 chunk 被分配不同的噪声级别（与推理期间使用的噪声调度保持一致）

2.引入历史参考帧，保障片段生成与前序内容的连续性，让动作像「接力赛」一样流畅

引入 History 序列的训练

「零」噪声片引入：Diffusion Forcing 给了我们启发，基于 noise as masking 的思路。训练过程中可直接将历史参考帧引入与生成目标帧一起训练，提升生成的连续性。

History 增强策略，历史帧越来越多，如何选择好的是核心优化点

多样性与鲁棒性：进行历史帧的概率扰动，提升模型的自我纠错能力，缓解自回归模型的累积误差问题。

历史帧压缩：a) 按时间临近性、帧重要度进行采样，提升全局 history 对当前视频生成的有效控制。b) 注意力门控机制：模型根据当前帧内容动态选择相关历史帧进行参考，避免无关信息的干扰，提升记忆效率。

训练中引入指导帧，引导模型不跑偏，缓解视频遗忘的问题

抗偏移的方法：在生成中同时生成首尾的部分帧，后续一起用来预测后续帧，逐步往后生成。

以上技术的突破让蒸汽机长视频生成能力变得更大，正如百度商业体系商业研发总经理刘林所表示的：长时一致性和实时性问题的解决，使得用户可以随时进行交互，并且在交互过程中，用户可以不断调整输入 prompt，直到生成自己满意的视频为止。

在中文场景适配层面，如前文所述，百度蒸汽机 2.0 在语音还原度上超过 98%，这对用户而言意味着可以获得更自然、更沉浸的交互体验。无论是在长视频配音、虚拟角色对白，还是个性化讲解，用户都能听到几乎与真人无异的中文表达。同时，高精度的语音还原也让情绪（如喜悦、惊讶）传递更加细腻。对于内容创作者而言，这不仅降低了后期配音和剪辑的门槛，还大幅提升了成品的质量与效率。

值得一提的是，百度蒸汽机 2.0 在画质和运镜上也不输专业团队。通过多条件协同建模，端到端人物生成，以及百万级专业运镜数据微调，从而实现电影级画质、大师级复杂运镜。这也意味着过去需要庞大团队与昂贵设备才能实现的镜头效果，如今只需一段提示即可完成。毫不夸张地说，百度蒸汽机 2.0 让人人都能拍电影成为可能。

可以看出，百度蒸汽机 2.0 此次升级，并不是单点突破，而是在多个维度优化与创新的结果，它不仅解决了传统视频生成中短时长、不连贯、缺乏叙事的痛点，还将专业团队级别的影像表现力带到普通创作者手中。

结语

前段时间，香港老牌电视台 TVB 掀起了一场「AI 风暴」。

他们推出了香港电视界首部全 AI 生成的青春爱情短剧《在我心中，你是独一无二》，从男女主角到剧情，再到场景、配音，100% 由 AI 生成，这直接让制作成本节省了约 98%，相当于节省了近 5.65 亿港元的开支。由此可见，AI 技术在影视制作中有着巨大潜力和经济价值。

百度蒸汽机长视频能力得升级推出，则进一步推动了这一趋势。

作为行业首个通用 AI 长视频生成模型，蒸汽机打破了时长限制，实现了任意时长的长视频生成。这种跨越式提升，使得 AI 视频生成不再只是炫技式的片段演示，而是真正具备了内容生产力，既能满足广告、影视预演等专业场景的需求，也能为大众创作者释放出前所未有的创作自由度。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签