可灵 AI 数字人功能上线，一张图一段话生成高清视频

IT之家 09月18日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

快手旗下的可灵 AI 近日推出了全新的数字人功能，用户只需提供一张角色图片和一段文字或音频，即可生成最高 1080p/48FPS、最长 1 分钟的数字人视频。该功能融合了多模态理解与视频生成模型，能够实现精准的口型同步和情绪动作控制。基于 Transformer 的 DiT 架构确保了视频全程的角色一致性，并支持真人、动画、动物等多种角色形象，以及中、英、日、韩等多种语言。目前该功能正在公测中，使用成本最低为 0.12 元/秒。

🌟 **便捷高效的数字人生成：** 可灵 AI 的新功能允许用户仅凭一张角色图片和一段文字或音频，就能快速生成高质量的数字人视频。视频分辨率最高可达 1080p，帧率为 48FPS，单段视频最长可达 1 分钟，极大地简化了数字人视频的制作流程。

🎬 **先进的技术驱动：** 该功能的核心在于深度结合了多模态理解与视频生成模型。它采用基于 Transformer 的 DiT 架构，在处理时序信息和细粒度控制方面表现出色，能够精准同步口型，并精细控制角色的情绪和动作，确保视频内容的自然流畅和角色的一致性。

🎭 **广泛的角色与语言支持：** 可灵 AI 数字人功能在角色多样性和语言覆盖上均有突出表现。它支持生成真人、动画角色甚至动物形象的数字人，同时兼容中、英、日、韩等多种语言，能够满足全球不同用户和应用场景的需求。

💰 **极具竞争力的成本效益：** 在定价策略上，可灵 AI 数字人功能提供了颇具吸引力的价格，结合会员优惠，使用成本最低可达 0.12 元/秒。这一成本优势使得数字人视频的制作更加经济实惠，降低了创作门槛。

🚀 **开放的公测与未来展望：** 目前，可灵 AI 数字人功能正处于公测阶段，用户可以通过官方网站进行体验。未来，随着技术的进一步成熟和 API 的开放，该功能有望与更多第三方平台和应用集成，构建更广泛的数字人应用生态系统。

IT之家 9 月 18 日消息，近日，快手旗下的可灵 AI 推出全新数字人功能，通过一张角色图片加一段文字或音频，即可生成 1080p / 48FPS、最长 1 分钟的数字人视频。目前产品公测陆续开放中。

据IT之家了解，该数字人功能基于多模态理解与视频生成模型的深度结合，实现了口型精准同步以及情绪动作的精细控制。其采用的基于 Transformer 的 DiT 架构，在处理时序信息和细粒度控制方面具有独特优势，能够精准解析面部特征、理解音频语义，并根据语音内容推断合适的面部表情和微动作，从而确保生成的数字人在视频全程保持角色一致性。

在角色和语言支持方面，可灵 AI 数字人功能表现出色。其支持多种角色类型，包括真人、动画角色甚至动物形象，同时涵盖中、英、日、韩等多语种，能够满足不同用户的多样化需求。在价格策略上，结合会员优惠，可灵 AI 数字人的使用成本最低为 0.12 元 / 秒。

目前，可灵 AI 数字人功能正处于公测阶段，产品已陆续向用户开放使用。用户可以通过可灵 AI 官网进行体验。未来，随着技术的不断成熟和 API 的开放，可灵 AI 数字人有望与更多第三方平台和应用集成，构建起更加完善的生态系统。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签