快手旗下的可灵 AI 近日推出了全新的数字人功能,用户只需提供一张角色图片和一段文字或音频,即可生成最高 1080p/48FPS、最长 1 分钟的数字人视频。该功能融合了多模态理解与视频生成模型,能够实现精准的口型同步和情绪动作控制。基于 Transformer 的 DiT 架构确保了视频全程的角色一致性,并支持真人、动画、动物等多种角色形象,以及中、英、日、韩等多种语言。目前该功能正在公测中,使用成本最低为 0.12 元/秒。
🌟 **便捷高效的数字人生成:** 可灵 AI 的新功能允许用户仅凭一张角色图片和一段文字或音频,就能快速生成高质量的数字人视频。视频分辨率最高可达 1080p,帧率为 48FPS,单段视频最长可达 1 分钟,极大地简化了数字人视频的制作流程。
🎬 **先进的技术驱动:** 该功能的核心在于深度结合了多模态理解与视频生成模型。它采用基于 Transformer 的 DiT 架构,在处理时序信息和细粒度控制方面表现出色,能够精准同步口型,并精细控制角色的情绪和动作,确保视频内容的自然流畅和角色的一致性。
🎭 **广泛的角色与语言支持:** 可灵 AI 数字人功能在角色多样性和语言覆盖上均有突出表现。它支持生成真人、动画角色甚至动物形象的数字人,同时兼容中、英、日、韩等多种语言,能够满足全球不同用户和应用场景的需求。
💰 **极具竞争力的成本效益:** 在定价策略上,可灵 AI 数字人功能提供了颇具吸引力的价格,结合会员优惠,使用成本最低可达 0.12 元/秒。这一成本优势使得数字人视频的制作更加经济实惠,降低了创作门槛。
🚀 **开放的公测与未来展望:** 目前,可灵 AI 数字人功能正处于公测阶段,用户可以通过官方网站进行体验。未来,随着技术的进一步成熟和 API 的开放,该功能有望与更多第三方平台和应用集成,构建更广泛的数字人应用生态系统。
IT之家 9 月 18 日消息,近日,快手旗下的可灵 AI 推出全新数字人功能,通过一张角色图片加一段文字或音频,即可生成 1080p / 48FPS、最长 1 分钟的数字人视频。目前产品公测陆续开放中。

据IT之家了解,该数字人功能基于多模态理解与视频生成模型的深度结合,实现了口型精准同步以及情绪动作的精细控制。其采用的基于 Transformer 的 DiT 架构,在处理时序信息和细粒度控制方面具有独特优势,能够精准解析面部特征、理解音频语义,并根据语音内容推断合适的面部表情和微动作,从而确保生成的数字人在视频全程保持角色一致性。
在角色和语言支持方面,可灵 AI 数字人功能表现出色。其支持多种角色类型,包括真人、动画角色甚至动物形象,同时涵盖中、英、日、韩等多语种,能够满足不同用户的多样化需求。在价格策略上,结合会员优惠,可灵 AI 数字人的使用成本最低为 0.12 元 / 秒。
目前,可灵 AI 数字人功能正处于公测阶段,产品已陆续向用户开放使用。用户可以通过可灵 AI 官网进行体验。未来,随着技术的不断成熟和 API 的开放,可灵 AI 数字人有望与更多第三方平台和应用集成,构建起更加完善的生态系统。