IT之家 2024年08月28日
智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱 AI 开源视频生成模型 CogVideoX-5B,其质量更高,推理性能优化,门槛降低,可在多种显卡运行。该模型用于文本生成视频,采用多种技术。

🎬智谱 AI 开源的 CogVideoX-5B 视频生成模型,相比 CogVideoX-2B,在视频生成质量上有显著提升,视觉效果更佳。其大幅度优化了推理性能,降低了推理门槛,使更多用户能够使用。

💻CogVideoX 是用于文本生成视频任务的大规模 DiT 模型,采用了 3D causal VAE 技术,通过压缩视频数据到 latent space 并在时间维度上解码,实现高效视频重建。

🧐该模型还采用专家 Transformer 技术,将文本 embedding 和视频 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制进行时空联合建模。

IT之家 8 月 28 日消息,智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。

官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:

IT之家附相关链接:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱 AI CogVideoX-5B 视频生成 技术创新
相关文章