Bay的设计奥德赛 09月25日
AI生成视频发展及应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了AI视频生成的现状和效果,并探讨了多种可用的产品方案。从Runway和Pika Labs等文生视频工具,到Stable Diffusion相关的图生视频插件,如Mov2Mov、Ebsynth、Deforum等,以及视频修复和AI Avatar+语音生成工具,本文涵盖了AI视频生成领域的多种技术和应用。文章还对比了不同产品的优缺点,并提供了实践案例和教程推荐,帮助读者了解如何使用这些工具创作高质量的视频内容。

🌟 Runway: Runway is a powerful AI video editing tool that offers various features like video-to-video generation, video stylization, and storyboarding. Its Gen-2 model, released in early 2023, introduces text-to-video and text+image-to-video generation capabilities, along with advanced motion control and image/video processing tools.

🌟 Pika Labs: Pika Labs is a user-friendly AI video generator that supports text-to-video and image-to-video generation. It is known for its high-quality output and offers features like text/image encryption and可控参数调整.

🌟 Stable Diffusion Plugins: Stable Diffusion, an open-source project, offers various plugins for AI video generation, including Mov2Mov for frame-by-frame redrawing, Ebsynth for automatic frame interpolation, Deforum for complex animations with precise control, Infinite Zoom for high-resolution image zooming, and AnimateDiff for generating videos with camera movement control.

🌟 Topaz Video AI: Topaz Video AI is a powerful tool that enhances video clarity, upscales resolution, reduces flickering, and provides various other video editing features. It is a great addition to any AI video generation workflow.

原创 BayJ 2023-10-24 20:03 广东

AI生成视频发展到什么程度了,效果如何?有哪些可用的产品方案?网上炫酷的效果如何实现?AI视频的应用场景和案


本篇通过产品介绍和丰富的案例实践,带你了解AI视频有哪些产品,效果如何实现。上篇可戳:AI视频生成(上) | 技术发展概况和应用场景思考因公众号文章对视频数量的限制,明日发出第二篇~


三.产品概况

从生成方式分类,AI视频生成包含:
    文生视频、图生视频(Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation)视频生视频:又分逐帧生成(SD + Mov2Mov)、关键帧+补帧(SD + Ebsynth、Rerender A Video)、动态捕捉(Deep motion、Move AI、Wonder Dynamics)、视频修复(Topaz Video AI)AI Avatar+语音生成:Synthesia、HeyGen AI、D-ID长视频生短视频:Opus Clip脚本生成+视频匹配:Invideo AI剧情生成:Showrunner AI
其中蓝色字是我推荐持续关注、尝试使用的产品。
若从产品阶段和可用维度分类:

下面将按照上图维度进行产品介绍。
本节产品适合专业创作者进行电影、MV、宣传片等艺术作品中,有操作简单的Pika labs、Runway,也有基于Stable Diffusion能力延伸的插件。这些产品能够被学习并掌握,因此本节内容除了产品介绍,还会有实践教学的部分。
🌟Runway该产品年初在互联网爆火,泥塑人物的风格化视频想必大家都不陌生:Runway由一家总部位于旧金山的AI创业公司制作,其在2023年初推出的Gen-2代表了当前AI视频领域最前沿的模型。能够通过文字、图片等方式生成4s左右的视频。Runway致力于专业视频剪辑领域的AI体验,同时也在扩展图片AI领域的能力。目前Runway支持在网页、iOS访问,网页端目前支持125积分的免费试用额度(可生成约105s视频),iOS则有200多,两端额度貌似并不同步,想要更多试用次数的朋友可以下载iOS版本。官方网站:https://runwayml.com/
Gen-1 和Gen-2 的区别和使用方法Gen-1Gen-1的主要能力有:视频生视频(Video 2 Video)、视频风格化、故事版(将实体模型风格化)、遮罩等其中,仅支持视频生视频是Gen-1 和Gen-2的最大差异。
Gen-1 使用流程:Gen-1 能力介绍:https://research.runwayml.com/gen1

Gen-1 参数设置: https://help.runwayml.com/hc/en-us/articles/15161225169171

也可以看这个视频学习Gen-1的详细设置方式:https://youtu.be/I4OeYcYf0Sc



Gen-2Gen-2的主要能力有:文生视频(Text 2 Video )、Prompt+图像生成视频(Text + Image to Video )也支持无Prompt直接图片转视频(Image to Video),通常图生视频时,更推荐使用Image to Video。想要使用Gen-2,点击顶部的Start with Image、Start with Text 即可。🌟Text to Video时,建议优先使用右下角的“Free Preview”免费生成多组图片,然后从中选择一张进行视频生成,这样可以节约credits。Runway最近的更新中,支持将4s的视频延长,每次延长需要消耗20credits ,从Runway的付费情况来看,有点用不起。
Motion控制9月的更新中,runway支持了1-10级的motion slider调节,默认幅度为5
运镜能力同时支持了水平、垂直、空间和旋转,并且支持调节运动速度
30多项图片、视频处理能力除了最基础的图像、视频生成能力,Runway还提供30多项图片、视频处理能力,包含:Inpainting 视频修复;Motion Tracking视频主体跟随运动;Remove Any Background删除视频元素/背景;3D Texture生成3D纹理等。

推荐这个教程,基本功能都有介绍一遍:ai 繪圖 教學 | Ai动画:https://www.youtube.com/watch?v=Yj73NRmeSZM
Watch近期Runway控制台上线了Watch 模块,可以查看官方精选的创意案例。


🌟Pika labs该产品目前推出了Beta 版本,支持免费、不限次数地文生视频、图生视频,和Runway一样, 生成的视频会带上官方水印。Pika labs很少披露其产品、技术的详细情况,官网也没有花精力好好做,在国内外的影响力都没有Runway大,但其生成效果足以站上AI视频的牌桌。官方Twitter:https://twitter.com/pika_labs
优秀案例:这位导演用Pika labs产出的视频都非常高质量:By:Matan Cohen-Grumi
使用方法1.目前在Discord试用Beta版本:http://discord.gg/pika2.选择generate-x开头的频道或者建立pika labs私信3."/create" 输入prompt 即可完成文生视频输入prompt后,点击“增加1”可添加image进行文+图生视频如果你想仅输入图片,不输入Prompt来生成视频,可以使用/animate命令此外,🔄 可以帮助用户快速进行多次生成,🔀则可以方便的可控参数能基本满足需求。
文本、图像加密9月,pika更新了新能力加密信息。使用命令/encrypt_text,可以将最多 20 个字符的文本“加密”到给定的视频输出中。By:Matan Cohen-Grumi


而/encrypt_image,则可以实现输入logo image,生成图像动画中含有logo的效果:

By:Matan Cohen-Grumi值得一提的是,最好将logo文件处理为黑底白图,否则pika labs可能无法识别。使用/encrypt_image命令时,除了输入一张logo image,还可以选择性增加一张垫图,垫图会对视频整体风格、内容产生影响。
控制参数介绍
Pika labs和Runway Gen-2效果对比A.生成效果对比Runway VS Pika(8月版)B.运镜控制效果对比Runway VS Pika(By好友:瑶酱)
C.对比小结
    可控性
经过9月runway在控制器上的大更新,目前两者的控制能力不相上下。细节上,Runway在motion控制效果上略胜一筹,而Pika labs在图形、文字的显示上更快一步。
    连贯性
旧版Pika labs在帧的连贯性上差一些,但近期官方将帧数改为24帧后效果提升显著,和Runway没有较大差异
    生成效果
在尝试并看过很多案例发现,Runway生成效果通常比Pika labs的生成效果动作幅度更大更夸张,这也是导致Runway生成的许多效果有明显瑕疵的原因在一些场景下,我个人更喜欢Pika labs在细节上呈现的高水平动态效果,能够保证主体物没有明显变形和风格化。但Pika labs总是呈现物体动而背景静止的效果,Runway的大幅度变化有时能带来更多意想不到的效果。我们也可以通过Prompt或者在pika中增加镜头变换(对,不是motion,前面说过pika在motion上控制效果不显著)来增加运动幅度。
    价格
Runway 最低档的充值每月15刀, 而Pika labs目前完全免费。总的来说,目前runway 和pika labs都需要反复测试视频生成效果,并通过后期的剪辑处理形成可用的,效果不错的视频内容。由于Runway尝试次数实在有限,我个人还是喜欢使用Pika labs更多一点。
更多效果对比可查看: https://youtu.be/CB_Y-5yaQ-M


Stable Diffusion +这应该是目前最具备可控性的一种AI视频生产方式了, 同时也具备着一定上手成本。最早是看到海辛的分享,通过学习Nenly同学(B站)的保姆级教程(从安装到使用包教包会)和具体工具教程一步步理清思路并进行了案例实践。下面对用到的具体插件进行详细介绍,由于过程确实复杂,理解起来需要一定门槛,对SD不感兴趣的同学可以跳过这一段,继续看其他产品案例就好。
准备工作1.安装并掌握简单的Stable Diffusion基础,确保FFmpeg被安装(这将保证后续介绍的扩展能够生成视频预览)。2.准备好图片、视频素材这里推荐新手选取单人、简单场景、简单动作变化的视频,会更容易出效果(我选择的蜘蛛侠人物、动作变化多,前景色和背景色区别小,在生成时容易踩坑);另外需控制视频的长度,否则生成时间会过长。
A. Mov2Mov 逐帧重绘产品介绍:最早火起来的SD动画插件之一,mov2mov的原理是提取视频的帧,并将每一帧按照用户设置的模型和prompt重新绘制,然后将生成的视频组合成视频并输出。对比SD自带的批量图生图,更推荐mov2mov插件。直接通过提示词控制、生成最终视频,省去了用其他视频产品将多张图片转成视频的过程。但比起Deforum,Mov2Mov的能力比较单一,生成视频的闪烁也较大,胜在操作十分简单。
实践过程:1.用SD的isnet_Pro插件将视频转成帧2.选取其中一帧,尝试不同模型、Lora、Prompt下的效果,最终我选取了Counterfeit的二次元风格模型和其对应的VAE,该模型绘制效果偏复古漫画风格。提示词微调的情况下,不同大模型绘制出的效果
3.下载mov2mov插件,并使用视频转视频,等待一段较长的时间后就可以在output文件夹内看到视频效果啦。为了加快生成速度,我将视频等比缩小成了960*540尺寸进行生成(此举会对风格化效果有所影响:与原图1:1输出时,风格化效果偏2.5D,1:0.5输出时,效果偏2D,不过这不影响我们了解mov2mov的效果)最终效果演示推荐Nenly同学的mov2mov教程:https://www.bilibili.com/video/BV1Su411b7Nm/?vd_source=1f2c69c20edd956939a5f89d3462987f


B. EbSynth 自动补帧产品介绍:EbSynth 是一款轻量的图片处理软件,早在19年就公开发布。AI绘画火爆后,许多创作者使用EbSynth自动生成关键帧之间的过渡帧,从而实现静态图像到动画的转换。相较mov2mov逐帧转绘的方法,EbSynth可大幅降低动画制作的时间。

官网下载客户端:https://ebsynth.com/
实践过程:通过手动抽取关键帧,随后进行关键帧重绘,再使用EbSynth桌面端软件补帧并使用AE图片序列转视频1.先使用SD的isnet_Pro插件将视频转成帧2.人工选取一些动作有明显变化的关键帧,放在SD图生图中逐张进行风格化3.提取视频的蒙版,将视频导出Alpha Channel序列,方便后续导入EbSynth Mask类目。开启“蒙版绘制”将人物和背景分开绘制,以达到减少“视频闪烁”的效果。
这一步有多种方法可以解决:a.在AE中蒙版绘制,该操作需要原视频背景比较干净,和主体部分有明显的色彩差异。操作教程在这里:https://www.youtube.com/watch?v=81L1y3LwX6Yb.如果你付费了Runway,有一种更简单的方式可以提取Alpha Channel序列,那就是使用自动绿幕抠像功能,在选中人物主体后,已经能够比较精准的识别每一帧中的主体信息,即使是在如下案例中,主体和背景差距很小的情况下也表现的优秀(导出的视频仍需使用isnet_Pro插件转成帧,保存为Mask文件夹)Runway绿幕操作过程演示
    打开EbSynth本地应用,在关键帧之间补帧,最终得到了一堆补帧后生成的图片
    拖拽刚才生成的文件夹到AE中,编辑成视频并导出
EbSynth视频生成效果Miles整体的动画效果不错,而Gwen在动作范围变化较大的时候还存在较多瑕疵,此时应该增加更多风格化关键帧,这里作为案例演示,不再深入了。另外如果在图像生成过程中增加controlnet控制,生成的图像效果应该能够保持更多的一致性。( 另外EbSynth 还有一款SD插件,配合安装额外工具可以最大程度的将AI视频生成工作流保留在SD中,但经过尝试不推荐使用mac系统的同学使用,额外工具在mac上的安装较为繁琐,插件存在运行bug。使用Windows系统的同学可参考Nenly同学的教程: https://www.bilibili.com/video/BV1uX4y1H7U3/?vd_source=1f2c69c20edd956939a5f89d3462987f )总的来说,EbSynth可以在仅生成1/10-1/5风格化关键帧的同时通过补帧达到不错的视频效果。



C.🌟Deforum 文/图生视频产品介绍Deforum是一个基于Stable Diffusion的开源项目,可实现复杂的缩放、位移、旋转动画,并且可以同时控制多个帧间隔中的动画差异、提示词差异。可控性远远超过Runway和Pika labs,生成效果也十分惊艳,缺点是控制参数较为复杂,生成时间较长,逐帧重绘方式效率低。项目地址:https://github.com/deforum-art/deforum-stable-diffusion
优秀案例我非常喜欢的一个Deforum案例,使用了多段图生视频剪辑:

By Art On Tap
使用方法Deforum的设置比较复杂,需要一些耐心,重要的设置项都在下图中说明了:不同设置项目的差异可以看如下测试,在以下单一参数设置为0:(0.5)时,其中旋转中心点需和角度搭配使用:
看了上面的设置,你可能会感到头痛,如果我们因为一些原因重启SD,所有的项目都要重新设置一遍吗?这里对比其他扩展,Deforum提供了一个非常方便的能力,点击图片生成区域下方的“保存设置”即可将此时Deforum扩展中的所有设置保存,点击“载入所有设置”,除了初始化图像输入框中的图片需要重新导入,其他都可以直接使用。同时每一次视频生成,Deforum都会将运行的设置项代码保存在相应的文件夹中,方便用户回溯。注:Deforum采取的仍然是逐帧绘制的方式,图片尺寸过大,会导致视频生成时间太长。相应的,缩小图片尺寸,生成的细节和细节质量会降低,在对视频效果没啥把握的前期,建议等比缩小视频尺寸。生成满意的效果后再按大图生成最终视频。
实践过程这里我选了一张在Midjourney中绘制的赛车图像,想要描绘赛车在赛车场上飞驰的画面。生成时主要用到了3D控制实现了车身偏移的效果,并且添加了镜头的缩小放大。在尽管比Mov2Mov生成的效果更好,但Deforum还是没法避免闪烁,后面我将介绍另外一款产品Topaz VideoAI来解决这个问题。
资料推荐:文字教程,包含详细的设置效果教学:https://stable-diffusion-art.com/deforum/详细的视频教学:https://www.youtube.com/watch?v=meSF8MsC2PM更硬核的教程,使用Paseq工具更好的控制Deforum的复杂参数:https://www.youtube.com/watch?v=n4zj1lrbIEM


D. Infinite zoom图片无限放大产品介绍Infinite zoom可以基于原图生成高分辨率的无限缩放图像。主要思路是首先生成不同尺度的图像切片,然后通过重叠融合生成无缝的大图像,并可以不断放大浏览。该插件提供Prompt分段输入,分别控制整体场景和样式,近景内容,中景内容和远景内容,方便更细致地控制无限缩放图像的场景与细节。Github:https://github.com/v8hid/infinite-zoom-automatic1111-webui
使用方法比起Deforum,Infinite zoom的设置比较简单,生成图片张数和视频秒数相同。
实践过程实验了几次后发现,即使是蒙版边缘模糊度拉到最高,还是会出现图片之间明显的接缝,图片似乎会以叠加的方式融合,会出现一些内容被生硬盖住的情况。详细的视频教学:https://www.youtube.com/watch?v=qkZXvQ5aMiYhttps://www.youtube.com/watch?v=E6ZYrzn5iWU&t=6s


E.🌟AnimateDiff 文/图生视频产品介绍首先需要安装SD扩展并下载对应的运动模型。在SD的文生图Tab中可以找到AnimateDiff 菜单,启用后,在生成图片的同时还会生成视频。9月,AnimateDiff也发布了相机运动控制模块,不过需要分别下载模型来实现。近期更新中,AnimateDiff能够实现类似Deforum、Infinite Zoom中的分段提示词能力,直接在正向Prompt输入框中使用格式提示词即可实现。

ComfyUI是另一个基于Stable Diffusion的图形用户界面,可以通过拖拽图片的方式导入他人的工作流,部署也比SD webui更简单,生成速度快,缺点是节点控制比较复杂,深度学习有一定门槛。近期ComfyUI在AnimateDiff扩展的使用上受到欢迎。

使用ComfyUI+AnimateDiff还能突破webui中AnimateDiff最高32帧的限制,在Comfy UI的AnimateDiff扩展git地址中,我们可以复用作者的工作流快速复现效果:https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved


资料推荐Stable Diffusion webui扩展地址:https://github.com/continue-revolution/sd-webui-animatediff.gitAnimateDiff Motion Modules下载地址:https://civitai.com/models/108836Comfy UI git:https://github.com/comfyanonymous/ComfyUI#manual-install-windows-linuxComfy UI Mac安装教程:https://stable-diffusion-art.com/how-to-install-comfyui/Comfy UI Manager安装、AnimateDiff安装和初步使用:https://www.youtube.com/watch?v=SGivydaBj2w




F. Warpfusion视频生视频一款视频生视频工具,不过使用前需要购买该程序代码(10刀),使用Google Collab,webui比较复杂。前段时间火爆全网的雕塑跳舞动画就是用该工具生成的。

详细教程和效果:https://www.youtube.com/watch?v=mVze7REhjCI

🌟Topaz Video AI产品介绍Topaz Labs成立于2008年,总部位于美国犹他州,是一家图像处理软件公司。最初以Photoshop插件起家,后来转向研发独立软件。其于2022年推出Topaz Video AI,能够提升视频清晰度、支持将视频升级到最高60帧的水平。Topaz还提供了算法模型用于减少闪烁、去噪、去除动态模糊、颜色校正、慢动作等等。该产品可以作为Pika labs、Runway、SD视频生成扩展的最强辅助。价格为299美刀。官方地址: https://www.topazlabs.com/topaz-video-ai使用指南: https://docs.topazlabs.com/video-ai/features/user-interface
实践过程这里我将Deforum中生成的赛车视频案例拖入Topaz中进行优化,将视频帧率提升至50,并且开启了Motion Deblur,优化后视频闪烁问题有了很大改善。可能受限于视频上传压缩,该效果没法为大家完整传递出来。
因公众号文章对视频数量的限制,明日发出第二篇~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频生成 Runway Pika Labs Stable Diffusion Topaz Video AI
相关文章