index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
昆仑万维在2025年陆续发布并开源了多款SkyReels视频生成模型,包括SkyReels-V1、V2、A1、A2及A3。这些模型在HuggingFace和GitHub上获得了广泛关注,下载量和点赞数均表现优异。SkyReels-V1是中国首个面向AI短剧创作的开源视频生成模型,强调表情和肢体可控性,支持文生视频和图生视频。SkyReels-V2是全球首个使用扩散强迫框架的无限时长电影生成模型,能实现高质量、长时间视频生成。SkyReels-A1是国内首个开源的SOTA级别表情动作可控算法,能生成逼真人物动态视频。SkyReels-A2是可控视频生成框架,能将任意视觉元素组装成合成视频并保持一致性。SkyReels-A3则是一款音频驱动的数字人创作模型,可实现任意时长音频驱动的数字人视频生成。昆仑万维通过开源SkyReels系列模型,致力于推动AI视频创作生态的繁荣发展。
🎥 **SkyReels系列模型广泛开源,推动AI视频创作生态发展**:昆仑万维在2025年陆续发布并开源了SkyReels-V1、V2、A1、A2等多个SOTA级别视频生成模型和算法。这些模型在HuggingFace和GitHub上获得了极高的关注度和下载量,显示了其在开源社区的受欢迎程度。通过积极拥抱AI开源理念,昆仑万维旨在推动AI技术的开放共享,促进AI视频创作生态的持续建设和繁荣,并助力AGI(通用人工智能)的平权化发展。
✨ **SkyReels-V1与V2:引领视频生成技术前沿**:SkyReels-V1是中国首个面向AI短剧创作的视频生成模型,专注于提升表情和肢体表演的可控性,支持文生视频和图生视频,并达到了开源SOTA水平。SkyReels-V2则是全球首个采用扩散强迫框架的无限时长电影生成模型,通过多模态大语言模型、多阶段预训练、强化学习等技术协同优化,为高质量、长时间电影风格视频生成提供了创新解决方案,位列GitHub“Awesome Video Diffusion”模型合辑。
🎭 **SkyReels-A1与A2:实现高精度的人物与多元素视频可控生成**:SkyReels-A1是中国首个开源的SOTA级别表情动作可控算法,能够生成高度逼真、细节丰富的动态人物视频,实现神情与身体动作的自然融合,为用户带来低成本、高可控性的AIGC能力。SkyReels-A2作为可控视频生成框架,能够根据文本提示将任意视觉元素(人物、物体、背景等)组装成合成视频,并严格保持各元素与参考图像的一致性,解决了多主体一致性生成视频的难题,大幅提升了视频生成的可控性。
🗣️ **SkyReels-A3:赋能音频驱动的数字人视频创作**:SkyReels-A3模型是一款先进的音频驱动人像视频生成模型,它能够让任意照片或视频中的人物“活”起来,根据上传的语音开口说话或唱歌。用户可以通过上传人像图片和语音来创作新的视频,或为现有视频“改台词”,使人物口型、表情和表演与新音频自动匹配,画面保持连贯。该模型基于“DiT视频扩散模型+插帧模型+强化学习+运镜可控”技术,实现了任意时长的全模态音频驱动数字人创作。
原创 昆仑万维 2025-09-12 15:10 北京
2025年,昆仑万维陆续发布并开源多个SkyReels模型。截至目前,SkyReels系列开源模型在HuggingFace中的累计总下载量超25万次、GitHub stars累计超8k,它们获得开源社区、海内外AI机构组织、科研学者等AI从业者和开发者的广泛关注与喜爱。
SkyReels-V1模型 其中,SkyReels-V1模型 是最早和用户见面的SOTA级开源模型。作为中国首个面向AI短剧创作的、以人为中心的开源视频生成模型,SkyReels-V1的核心是提升表情生成、肢体生成的可控表演效果。其不仅针对表演细节做了打标,还对情绪、场景、表演诉求等进行处理,利用千万级别、高质量的好莱坞级别数据进行训练微调。因此,SkyReels-V1 可实现影视级人物微表情表演生成,支持33种细腻人物表情与400+种自然动作组合,高度还原真人情感表达。更重要的是,SkyReels-V1不仅是国内最早支持文生视频(T2V)、还能支持图生视频(I2V)的模型,也是上半年中开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源SOTA。SkyReels-V2模型 紧随其后,2025年4月,昆仑万维SkyReels团队正式发布并开源
SkyReels-V2模型 ——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。SkyReels-V2模型的核心价值在于,其为实现高质量、长时间的电影风格视频生成提供了全新的解决方案。截至目前,SkyReels-V2累计收获GitHub stars 4.4k,位列GitHub “Awesome Video Diffusion”模型合辑。SkyReels-V2模型不仅通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化,还提供多了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成。
SkyReels-V2( 1.3B、14B等多尺寸 )开源地址: 3
SkyReels-A1模型 SkyReels-A1则是中国首个开源的SOTA级别基于视频基座模型的表情动作可控算法,它能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。SkyReels-A1支持和驱动下的人物表演,不仅人物不失真,且表演细节更真实,还可以实现神情与身体动作的自然完美融合,同时能够实现更大幅度的人物表情驱动。以SkyReels-A1为代表的可控算法开源后,有望为用户带来低成本、可控性更强的AIGC能力。
4
SkyReels-A2模型 SkyReels-A2是昆仑万维开源的可控视频生成框架,可以根据文本提示将任意视觉元素(如人物、物体、背景等)组装成合成视频,同时严格保持每个元素与参考图像的一致性。这意味着,用户可以同时上传多个元素来组合生成一段视频,并通过提示词控制来生成视频的准确度,SkyReels-A2解决了多个主体一致性生成视频一致性的问题,大幅提升了视频生成可控性。为达到这样的效果,SkyReels-A2设计了一种新的图像-文本联合嵌入模型,将多元素表示注入生成过程中,平衡元素特定的一致性与全局连贯性以及文本对齐。
5
SkyReels-A3模型 8月11日,SkyReels-A3模型发布(未开源),基于“DiT(Diffusion Transformer)视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”,其能实现任意时长的全模态音频驱动数字人创作。
用户可以直接登录SkyReels官网,在左侧导航栏中选择Talking Avatar工具后直接使用。
作为音频驱动(audio-driven)人像视频生成模型,SkyReels-A3就像给任意照片或视频装上“AI声带”:
让一张照片“活”起来:上传一张人像图片,再配段语音,照片里的人就能按这段语音开口说话或唱歌; 创作一段新的视频:上传一张人像图片、配段语音,再给出文字prompt,照片里的人就能按照要求的状态进行表演; 给现有视频“改台词”:可以将原视频的音频换掉,人物会自动对上新的口型、表情和表演,画面依旧连贯。 6
以开源之姿, 昆仑万维 SkyReels助力 全球AI视频创作生态繁荣发展 昆仑万维始终坚守开源理念、积极拥抱AI开源,致力于推动AI技术的开放共享与社区共建。当前,昆仑万维自研并发布了 天工语言大模型、天工多模态大模型、SWE代码大模型、Agent大模型、视频大模型、3D大模型、音乐大模型、音频大模型等8个大模型。2025年以来,SkyReels陆续开源多个SOTA级别视频生成模型和算法、通用模型,希望通过开源实现AGI平权,推动AI视频创作生态的持续建设和繁荣,促进开源社区、开发生态以及AI行业的发展。欢迎开发者与用户下载SkyReels开源模型,或登陆SkyReels官网体验模型功能。阅读原文
跳转微信打开