昆仑万维SkyReels系列模型助力AI视频创作

昆仑万维集团 09月13日

昆仑万维在2025年陆续发布并开源了多款SkyReels视频生成模型，包括SkyReels-V1、V2、A1、A2及A3。这些模型在HuggingFace和GitHub上获得了广泛关注，下载量和点赞数均表现优异。SkyReels-V1是中国首个面向AI短剧创作的开源视频生成模型，强调表情和肢体可控性，支持文生视频和图生视频。SkyReels-V2是全球首个使用扩散强迫框架的无限时长电影生成模型，能实现高质量、长时间视频生成。SkyReels-A1是国内首个开源的SOTA级别表情动作可控算法，能生成逼真人物动态视频。SkyReels-A2是可控视频生成框架，能将任意视觉元素组装成合成视频并保持一致性。SkyReels-A3则是一款音频驱动的数字人创作模型，可实现任意时长音频驱动的数字人视频生成。昆仑万维通过开源SkyReels系列模型，致力于推动AI视频创作生态的繁荣发展。

🎥 **SkyReels系列模型广泛开源，推动AI视频创作生态发展**：昆仑万维在2025年陆续发布并开源了SkyReels-V1、V2、A1、A2等多个SOTA级别视频生成模型和算法。这些模型在HuggingFace和GitHub上获得了极高的关注度和下载量，显示了其在开源社区的受欢迎程度。通过积极拥抱AI开源理念，昆仑万维旨在推动AI技术的开放共享，促进AI视频创作生态的持续建设和繁荣，并助力AGI（通用人工智能）的平权化发展。

✨ **SkyReels-V1与V2：引领视频生成技术前沿**：SkyReels-V1是中国首个面向AI短剧创作的视频生成模型，专注于提升表情和肢体表演的可控性，支持文生视频和图生视频，并达到了开源SOTA水平。SkyReels-V2则是全球首个采用扩散强迫框架的无限时长电影生成模型，通过多模态大语言模型、多阶段预训练、强化学习等技术协同优化，为高质量、长时间电影风格视频生成提供了创新解决方案，位列GitHub“Awesome Video Diffusion”模型合辑。

🎭 **SkyReels-A1与A2：实现高精度的人物与多元素视频可控生成**：SkyReels-A1是中国首个开源的SOTA级别表情动作可控算法，能够生成高度逼真、细节丰富的动态人物视频，实现神情与身体动作的自然融合，为用户带来低成本、高可控性的AIGC能力。SkyReels-A2作为可控视频生成框架，能够根据文本提示将任意视觉元素（人物、物体、背景等）组装成合成视频，并严格保持各元素与参考图像的一致性，解决了多主体一致性生成视频的难题，大幅提升了视频生成的可控性。

🗣️ **SkyReels-A3：赋能音频驱动的数字人视频创作**：SkyReels-A3模型是一款先进的音频驱动人像视频生成模型，它能够让任意照片或视频中的人物“活”起来，根据上传的语音开口说话或唱歌。用户可以通过上传人像图片和语音来创作新的视频，或为现有视频“改台词”，使人物口型、表情和表演与新音频自动匹配，画面保持连贯。该模型基于“DiT视频扩散模型+插帧模型+强化学习+运镜可控”技术，实现了任意时长的全模态音频驱动数字人创作。

原创昆仑万维 2025-09-12 15:10 北京

2025年，昆仑万维陆续发布并开源多个SkyReels模型。截至目前，SkyReels系列开源模型在HuggingFace中的累计总下载量超25万次、GitHub stars累计超8k，它们获得开源社区、海内外AI机构组织、科研学者等AI从业者和开发者的广泛关注与喜爱。

SkyReels-V1模型

其中，SkyReels-V1模型是最早和用户见面的SOTA级开源模型。作为中国首个面向AI短剧创作的、以人为中心的开源视频生成模型，SkyReels-V1的核心是提升表情生成、肢体生成的可控表演效果。

其不仅针对表演细节做了打标，还对情绪、场景、表演诉求等进行处理，利用千万级别、高质量的好莱坞级别数据进行训练微调。因此，SkyReels-V1可实现影视级人物微表情表演生成，支持33种细腻人物表情与400+种自然动作组合，高度还原真人情感表达。

更重要的是，SkyReels-V1不仅是国内最早支持文生视频（T2V）、还能支持图生视频（I2V）的模型，也是上半年中开源视频生成模型中参数最大的支持图生视频的模型，在同等分辨率下各项指标实现开源SOTA。

SkyReels-V1 开源地址：

https://huggingface.co/collections/Skywork/skyreels-v1-67b34676ff65b4ec02d16307

SkyReels-V2模型

紧随其后，2025年4月，昆仑万维SkyReels团队正式发布并开源SkyReels-V2模型——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。SkyReels-V2模型的核心价值在于，其为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。

截至目前，SkyReels-V2累计收获GitHub stars 4.4k，位列GitHub “Awesome Video Diffusion”模型合辑。

SkyReels-V2模型不仅通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化，还提供多了多种有用的应用场景，包括故事生成、图生视频、运镜专家和多主体一致性视频生成。

SkyReels-V2（1.3B、14B等多尺寸）开源地址：

https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9

SkyReels-A1模型

SkyReels-A1则是中国首个开源的SOTA级别基于视频基座模型的表情动作可控算法，它能够基于任意人体比例（包括肖像、半身及全身构图）生成高度逼真的人物动态视频，其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

SkyReels-A1支持和驱动下的人物表演，不仅人物不失真，且表演细节更真实，还可以实现神情与身体动作的自然完美融合，同时能够实现更大幅度的人物表情驱动。以SkyReels-A1为代表的可控算法开源后，有望为用户带来低成本、可控性更强的AIGC能力。

SkyReels-A1：

项目主页：

https://skyworkai.github.io/skyreels-a1.github.io/

开源地址：

https://huggingface.co/Skywork/SkyReels-A1

SkyReels-A2模型

SkyReels-A2是昆仑万维开源的可控视频生成框架，可以根据文本提示将任意视觉元素（如人物、物体、背景等）组装成合成视频，同时严格保持每个元素与参考图像的一致性。