机器之心 09月26日 04:11
百度蒸汽机升级:AI长视频生成突破时长限制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百度蒸汽机迎来重大升级,推出行业首个通用 AI 长视频生成功能,理论上可生成任意长度视频,并引入交互式需求表达,允许在生成过程中实时更新提示词。该模型采用流式生成技术,用户只需一张图加提示词即可生成无限时视频,并可随时调整内容,创作体验更灵活。此次升级解决了长视频生成中的技术难点,如时间空间理解、信息密度控制和视觉连贯性,并大幅提升了创作效率和商业应用的可能性。升级后的蒸汽机在画质、运镜、中文语音还原度等方面均有显著提升,为内容创作者提供了强大的新工具。

🚀 **突破时长限制,实现任意长度视频生成:** 百度蒸汽机 2.0 此次升级最大的亮点在于其行业首创的通用 AI 长视频生成功能,打破了以往 5 秒或 10 秒的限制,理论上可以生成任意长度的视频。这得益于其采用的流式生成技术,用户仅需提供一张图片和一段提示词,即可实现无限时视频的生成,极大地拓展了 AI 视频创作的边界。

💡 **交互式创作,实时调整提示词:** 新版本引入了交互式需求表达功能,允许创作者在视频生成过程中实时更新提示词。这意味着用户可以随时调整视频内容,进行精细化创作,告别了传统 AI 视频生成中一次性输入的局限性,使得创作过程更加灵活高效,能够更好地满足复杂多变的创意需求。

🌊 **流畅连贯,细节逼真:** 百度蒸汽机在长视频生成方面采用了先进的流式生成技术,而非简单的首尾帧续写。这种技术能够更深入地理解时间与空间,精确控制信息密度和视觉连贯性,从而生成动作流畅、细节逼真的视频。无论是小鸭子划水的细腻羽毛,还是西部牛仔场景的镜头运动,都能呈现出高质量的视觉效果。

🎬 **专业级画质与运镜,人人皆可创作电影:** 升级后的蒸汽机在画质和运镜方面表现出色,通过多条件协同建模、端到端人物生成以及百万级专业运镜数据微调,实现了电影级画质和大师级复杂运镜。这使得过去需要庞大团队和昂贵设备才能实现的镜头效果,现在普通创作者仅凭一段提示即可完成,真正做到了“人人都能拍电影”。

🗣️ **高精度中文语音还原,沉浸式交互体验:** 针对中文场景,蒸汽机 2.0 在语音还原度上表现卓越,超过 98% 的细节还原度使得中文表达自然流畅,情感传递细腻。这不仅降低了后期配音和剪辑的门槛,还为虚拟角色对话、个性化讲解等应用提供了更具沉浸感的交互体验。

机器之心报道

机器之心编辑部

AI 视频生成行业天花板再次被拉高。


百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。


7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。


而现在,距离上次发布仅短短一个月,百度蒸汽机 2.0 又迎来重磅升级,推出了行业首个通用 AI 长视频生成功能。


此次升级,百度蒸汽机不仅突破了 5 秒和 10 秒的生成时长限制,理论上可生成任意长度的长视频,还引入交互式需求表达功能,允许在生成过程中实时更新提示词。这意味着创作者可以随时调整视频内容,创作体验更为灵活高效。



长视频生成对 AI 模型提出了更高要求,模型需要具备对时间、空间的深度理解能力,同时要能精确控制信息密度和视觉连贯性,这一直是该领域的技术难点。


为延长视频时长,业内普遍采用「首尾帧续写」技术,或者视频延长的简单续写能力,虽然能勉强填补时长空白,但容易导致视频缺乏连贯性,画质和细节呈现不稳定,难以承载复杂的创作需求。同时首尾帧续写需要用户每个镜头需要上传图片以及提示词,一个镜头普遍 1-6 秒,生成几十秒成片可能需要 10 组以上图片和提示词描述,操作门槛非常高,且很难实现无限时生成。


与这一浅层技术方案不同,百度蒸汽机采用流式生成技术,用户只需输入图像和提示词,就能生成任意时长的视频,并可以在生成过程中随时调整提示词,实时续写内容或指定任意帧继续生成,用户无需复杂操作,只需要一张图 + 提示词,即可完成无限时视频生成。如果对于前面的内容不满意,可以马上暂停调整,不需要完整推理过程结束,区别于行业其他长视频技术能力,百度蒸汽机的长视频生成能力不仅仅大幅度提升了创作效率,还可以实现灵活、流畅的创作体验。


首尾帧续写长视频能力


百度蒸汽机流式生成长视频能力


百度蒸汽机的这次迭代升级,不仅是技术上的一次革新,也在商业应用层面带来新的可能性。创作者可以在短时间内完成高质量长视频制作,降低了创作成本,提高内容产出效率,为各行业内容创作提供了新的工具和商业价值。


在下面这段蒸汽机长视频生成的视频中,小鸭子划水、上岸等动作连贯流畅,没有出现卡顿或不自然的现象,水面的涟漪、小鸭子的羽毛等细节也都处理得细腻逼真。


提示词:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。


再比如,蒸汽机长视频模型还成功生成了一段西部牛仔风格视频,效果堪比电影大片。


该模型能够精准执行复杂的镜头运动与人物动作,在提示词的指引下,以一镜到底的方式呈现出牛仔走向马车、推门而入等场景转换。


镜头跟随、人物动作以及视角切换的衔接都很丝滑,尤其是在人物向前走和镜头右摇的场景中,模型能够精确控制镜头的角度与人物的位置变化,保持画面的自然过渡。


提示词:1-5s 镜头跟随,牛仔走向右方马车。6-10s 人物向前走,镜头跟随。11-15s 人物向前走,镜头跟随,右摇 16-20s 镜头跟随,牛仔推开门进去。


在另一段长视频中,蒸汽机 2.0 真实还原了水流的动态变化以及小纸船在水面上漂动的轨迹,画面没有任何破绽或失真的情况,细节把控也很到位。


提示词:小纸船在小河里漂流。


本次百度蒸汽机还发布了首尾帧功能,支持用户提供首尾帧2张图片和提示词可完成图片的理解和5S视频生成为创作者提供更便利的视频片段生成能力


提示词:黄色折纸在工作台上逐步折叠,变形为彩色折纸猴,定格动画逐帧展现折纸过程,固定镜头。


我们只需上传首尾帧图片并输入提示词,蒸汽机 2.0 便能「脑补」出中间的剧情,实现完整的画面衔接。


比如一段电影风格的镜头中,平静的水面突然冒出三个全副武装、手持冲锋枪的士兵,生成的画面几乎可以以假乱真:


提示词:固定镜头,平静的水面荡起波纹,三个士兵慢慢露出水面,他警惕的看着四周。


还有这个动漫风格的镜头,即使二次元小姐姐转个圈也能保持前后人物一致性,角色面部不会崩坏:


提示词:镜头环绕着人物


首尾帧功能特别适用于延时摄影。蒸汽机生成了一段树木从秋季黄叶到冬季积雪的自然变化,季节过渡平滑自然,树叶飘落与雪花覆盖的细节也处理得很细腻。


提示词:固定镜头大延时摄影,天⽓变化到冬天,背景云雾变化。


在商业化场景中,百度蒸汽机还能制作各类广告大片。在下面的案例中,只见镜头慢慢拉远,光泽感十足的耳机被拿在手中,流线型的反射效果显得极具质感,生成的手部非常自然,手指与物体的衔接部分也毫无违和感。


提示词:耳机合上盖子,伸出一只手拿着耳机。


此外,百度蒸汽机在 8 月还率先推出「多人对话音视频一体化生成」能力,也是全球首个中文音视频一体化生成模型,该模型基于多模态信息的精准同步与自然交互,支持多角色自然对话,并保持高画质输出、大师级运镜。依托海量中文语料深度训练,中文语音细节还原度超 98%。



现在,所有用户都可以通过百度搜索、百度 APP 或访问「绘想」平台进行体验。


体验链接:https://huixiang.baidu.com


可交互长视频生成的难点在哪?


现阶段,AI 视频生成虽然发展迅猛,目前行业内视频生成均集中在 5s/10s,且由于视频生成多采用基于 transformer 的扩散模型,在生成时长和实时性方面仍然存在很大的局限(生成时间长,且生成成本随生成时长呈平长级膨胀,不支持实时生成也无法交互)。较短的视频在应用上主要在工具层面,集中在视频片段、视频素材制作上,而互动视频、直播场景对视频时长和实时性都提出了更高的要求。同时,可交互的长视频生成技术可能重塑人类与媒介的互动方式,从「被动消费」转向「共同创作」,甚至催生全新的艺术形式与商业模式。


挑战 1 :时长


长视频生成中存在长上下文记忆难题,模型需在长时间范围内有效保留和检索关键事件,同时避免信息崩溃或漂移。


遗忘的问题:模型在生成长视频时,难以长期记忆早期帧的内容,导致时间维度上存在不一致


漂移的问题:生成过程中误差逐帧累积,导致生成的视觉质量逐渐下降。随着生成时长的增加,简单续写的方式,累积误差问题逐渐加剧,生成视频质量不断衰减,主体一致性逐渐下降。


挑战 2 :成本


由于视频生成模型中 Transformer 的二次复杂度,导致计算成本随着视频生成时长呈平方级增长。直接训练或推理更长视频,对 GPU 显存和计算效率提出更高要求,成本膨胀严重。


蒸汽机的解法与思考:

从分治到全局,引入自回归扩散模型

结合自回归长序列能力和扩散一致性强的优点


1.引入长时间一致性建模技术,解决长的问题:连续性 + 一致性


    从全局整体生成到局部生成


动态缓冲区管理:通过「移动缓冲区」机制实时管理多帧画面,允许模型同时处理模糊草图、半完成帧与高精度画面,实现「边生成边调整」的实时交互。


    阶梯独立噪声构造


独立噪声:基于时间步采样,为视频扩散模型的每一帧添加不同强度的噪声。根据噪声调度器曲线,每一个预测 chunk 被分配不同的噪声级别(与推理期间使用的噪声调度保持一致)


2.引入历史参考帧,保障片段生成与前序内容的连续性,让动作像「接力赛」一样流畅


    引入 History 序列的训练


「零」噪声片引入:Diffusion Forcing 给了我们启发,基于 noise as masking 的思路。训练过程中可直接将历史参考帧引入与生成目标帧一起训练,提升生成的连续性。



    History 增强策略,历史帧越来越多,如何选择好的是核心优化点


多样性与鲁棒性:进行历史帧的概率扰动,提升模型的自我纠错能力,缓解自回归模型的累积误差问题。


历史帧压缩:a) 按时间临近性、帧重要度进行采样,提升全局 history 对当前视频生成的有效控制。b) 注意力门控机制:模型根据当前帧内容动态选择相关历史帧进行参考,避免无关信息的干扰,提升记忆效率。



    训练中引入指导帧,引导模型不跑偏,缓解视频遗忘的问题


抗偏移的方法:在生成中同时生成首尾的部分帧,后续一起用来预测后续帧,逐步往后生成。


以上技术的突破让蒸汽机长视频生成能力变得更大,正如百度商业体系商业研发总经理刘林所表示的:长时一致性和实时性问题的解决,使得用户可以随时进行交互,并且在交互过程中,用户可以不断调整输入 prompt,直到生成自己满意的视频为止。


在中文场景适配层面,如前文所述,百度蒸汽机 2.0 在语音还原度上超过 98%,这对用户而言意味着可以获得更自然、更沉浸的交互体验。无论是在长视频配音、虚拟角色对白,还是个性化讲解,用户都能听到几乎与真人无异的中文表达。同时,高精度的语音还原也让情绪(如喜悦、惊讶)传递更加细腻。对于内容创作者而言,这不仅降低了后期配音和剪辑的门槛,还大幅提升了成品的质量与效率。


值得一提的是,百度蒸汽机 2.0 在画质和运镜上也不输专业团队。通过多条件协同建模,端到端人物生成,以及百万级专业运镜数据微调,从而实现电影级画质、大师级复杂运镜。这也意味着过去需要庞大团队与昂贵设备才能实现的镜头效果,如今只需一段提示即可完成。毫不夸张地说,百度蒸汽机 2.0 让人人都能拍电影成为可能。


可以看出,百度蒸汽机 2.0 此次升级,并不是单点突破,而是在多个维度优化与创新的结果,它不仅解决了传统视频生成中短时长、不连贯、缺乏叙事的痛点,还将专业团队级别的影像表现力带到普通创作者手中。


结语


前段时间,香港老牌电视台 TVB 掀起了一场「AI 风暴」。


他们推出了香港电视界首部全 AI 生成的青春爱情短剧《在我心中,你是独一无二》,从男女主角到剧情,再到场景、配音,100% 由 AI 生成,这直接让制作成本节省了约 98%,相当于节省了近 5.65 亿港元的开支。由此可见,AI 技术在影视制作中有着巨大潜力和经济价值。


百度蒸汽机长视频能力得升级推出,则进一步推动了这一趋势。


作为行业首个通用 AI 长视频生成模型,蒸汽机打破了时长限制,实现了任意时长的长视频生成。这种跨越式提升,使得 AI 视频生成不再只是炫技式的片段演示,而是真正具备了内容生产力,既能满足广告、影视预演等专业场景的需求,也能为大众创作者释放出前所未有的创作自由度。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频生成 百度蒸汽机 长视频生成 人工智能 深度学习 流式生成 交互式创作 AI艺术 内容创作 Baidu Steam Engine AI Video Generation Long Video Generation Artificial Intelligence Deep Learning Streaming Generation Interactive Creation AI Art Content Creation
相关文章