原创 BayJ 2023-10-24 20:03 广东
AI生成视频发展到什么程度了,效果如何?有哪些可用的产品方案?网上炫酷的效果如何实现?AI视频的应用场景和案
本篇通过产品介绍和丰富的案例实践,带你了解AI视频有哪些产品,效果如何实现。上篇可戳:AI视频生成(上) | 技术发展概况和应用场景思考因公众号文章对视频数量的限制,明日发出第二篇~
若从生成方式分类,AI视频生成包含:
- 文生视频、图生视频(Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation)视频生视频:又分逐帧生成(SD + Mov2Mov)、关键帧+补帧(SD + Ebsynth、Rerender A Video)、动态捕捉(Deep motion、Move AI、Wonder Dynamics)、视频修复(Topaz Video AI)AI Avatar+语音生成:Synthesia、HeyGen AI、D-ID长视频生短视频:Opus Clip脚本生成+视频匹配:Invideo AI剧情生成:Showrunner AI
若从产品阶段和可用维度分类:下面将按照上图维度进行产品介绍。
🌟Runway该产品年初在互联网爆火,泥塑人物的风格化视频想必大家都不陌生:Runway由一家总部位于旧金山的AI创业公司制作,其在2023年初推出的Gen-2代表了当前AI视频领域最前沿的模型。能够通过文字、图片等方式生成4s左右的视频。Runway致力于专业视频剪辑领域的AI体验,同时也在扩展图片AI领域的能力。目前Runway支持在网页、iOS访问,网页端目前支持125积分的免费试用额度(可生成约105s视频),iOS则有200多,两端额度貌似并不同步,想要更多试用次数的朋友可以下载iOS版本。官方网站:https://runwayml.com/
Gen-1 和Gen-2 的区别和使用方法Gen-1Gen-1的主要能力有:视频生视频(Video 2 Video)、视频风格化、故事版(将实体模型风格化)、遮罩等其中,仅支持视频生视频是Gen-1 和Gen-2的最大差异。
Gen-1 使用流程:Gen-1 能力介绍:https://research.runwayml.com/gen1Gen-1 参数设置: https://help.runwayml.com/hc/en-us/articles/15161225169171也可以看这个视频学习Gen-1的详细设置方式:https://youtu.be/I4OeYcYf0Sc
Gen-2Gen-2的主要能力有:文生视频(Text 2 Video )、Prompt+图像生成视频(Text + Image to Video )也支持无Prompt直接图片转视频(Image to Video),通常图生视频时,更推荐使用Image to Video。想要使用Gen-2,点击顶部的Start with Image、Start with Text 即可。🌟Text to Video时,建议优先使用右下角的“Free Preview”免费生成多组图片,然后从中选择一张进行视频生成,这样可以节约credits。Runway最近的更新中,支持将4s的视频延长,每次延长需要消耗20credits ,从Runway的付费情况来看,有点用不起。
Motion控制9月的更新中,runway支持了1-10级的motion slider调节,默认幅度为5
运镜能力同时支持了水平、垂直、空间和旋转,并且支持调节运动速度
30多项图片、视频处理能力除了最基础的图像、视频生成能力,Runway还提供30多项图片、视频处理能力,包含:Inpainting 视频修复;Motion Tracking视频主体跟随运动;Remove Any Background删除视频元素/背景;3D Texture生成3D纹理等。推荐这个教程,基本功能都有介绍一遍:ai 繪圖 教學 | Ai动画:https://www.youtube.com/watch?v=Yj73NRmeSZM
Watch近期Runway控制台上线了Watch 模块,可以查看官方精选的创意案例。
🌟Pika labs该产品目前推出了Beta 版本,支持免费、不限次数地文生视频、图生视频,和Runway一样, 生成的视频会带上官方水印。Pika labs很少披露其产品、技术的详细情况,官网也没有花精力好好做,在国内外的影响力都没有Runway大,但其生成效果足以站上AI视频的牌桌。官方Twitter:https://twitter.com/pika_labs
优秀案例:这位导演用Pika labs产出的视频都非常高质量:By:Matan Cohen-Grumi
使用方法1.目前在Discord试用Beta版本:http://discord.gg/pika2.选择generate-x开头的频道或者建立pika labs私信3."/create" 输入prompt 即可完成文生视频输入prompt后,点击“增加1”可添加image进行文+图生视频如果你想仅输入图片,不输入Prompt来生成视频,可以使用/animate命令此外,🔄 可以帮助用户快速进行多次生成,🔀则可以方便的可控参数能基本满足需求。
文本、图像加密9月,pika更新了新能力加密信息。使用命令/encrypt_text,可以将最多 20 个字符的文本“加密”到给定的视频输出中。By:Matan Cohen-Grumi
而/encrypt_image,则可以实现输入logo image,生成图像动画中含有logo的效果:By:Matan Cohen-Grumi值得一提的是,最好将logo文件处理为黑底白图,否则pika labs可能无法识别。使用/encrypt_image命令时,除了输入一张logo image,还可以选择性增加一张垫图,垫图会对视频整体风格、内容产生影响。
控制参数介绍
Pika labs和Runway Gen-2效果对比A.生成效果对比Runway VS Pika(8月版)B.运镜控制效果对比Runway VS Pika(By好友:瑶酱)
C.对比小结
- 可控性
- 连贯性
- 生成效果
- 价格
更多效果对比可查看: https://youtu.be/CB_Y-5yaQ-M
Stable Diffusion +这应该是目前最具备可控性的一种AI视频生产方式了, 同时也具备着一定上手成本。最早是看到海辛的分享,通过学习Nenly同学(B站)的保姆级教程(从安装到使用包教包会)和具体工具教程一步步理清思路并进行了案例实践。下面对用到的具体插件进行详细介绍,由于过程确实复杂,理解起来需要一定门槛,对SD不感兴趣的同学可以跳过这一段,继续看其他产品案例就好。
准备工作1.安装并掌握简单的Stable Diffusion基础,确保FFmpeg被安装(这将保证后续介绍的扩展能够生成视频预览)。2.准备好图片、视频素材这里推荐新手选取单人、简单场景、简单动作变化的视频,会更容易出效果(我选择的蜘蛛侠人物、动作变化多,前景色和背景色区别小,在生成时容易踩坑);另外需控制视频的长度,否则生成时间会过长。
A. Mov2Mov 逐帧重绘产品介绍:最早火起来的SD动画插件之一,mov2mov的原理是提取视频的帧,并将每一帧按照用户设置的模型和prompt重新绘制,然后将生成的视频组合成视频并输出。对比SD自带的批量图生图,更推荐mov2mov插件。直接通过提示词控制、生成最终视频,省去了用其他视频产品将多张图片转成视频的过程。但比起Deforum,Mov2Mov的能力比较单一,生成视频的闪烁也较大,胜在操作十分简单。
实践过程:1.用SD的isnet_Pro插件将视频转成帧2.选取其中一帧,尝试不同模型、Lora、Prompt下的效果,最终我选取了Counterfeit的二次元风格模型和其对应的VAE,该模型绘制效果偏复古漫画风格。
3.下载mov2mov插件,并使用视频转视频,等待一段较长的时间后就可以在output文件夹内看到视频效果啦。为了加快生成速度,我将视频等比缩小成了960*540尺寸进行生成(此举会对风格化效果有所影响:与原图1:1输出时,风格化效果偏2.5D,1:0.5输出时,效果偏2D,不过这不影响我们了解mov2mov的效果)最终效果演示推荐Nenly同学的mov2mov教程:https://www.bilibili.com/video/BV1Su411b7Nm/?vd_source=1f2c69c20edd956939a5f89d3462987f
B. EbSynth 自动补帧产品介绍:EbSynth 是一款轻量的图片处理软件,早在19年就公开发布。AI绘画火爆后,许多创作者使用EbSynth自动生成关键帧之间的过渡帧,从而实现静态图像到动画的转换。相较mov2mov逐帧转绘的方法,EbSynth可大幅降低动画制作的时间。官网下载客户端:https://ebsynth.com/
实践过程:通过手动抽取关键帧,随后进行关键帧重绘,再使用EbSynth桌面端软件补帧并使用AE图片序列转视频1.先使用SD的isnet_Pro插件将视频转成帧2.人工选取一些动作有明显变化的关键帧,放在SD图生图中逐张进行风格化3.提取视频的蒙版,将视频导出Alpha Channel序列,方便后续导入EbSynth Mask类目。开启“蒙版绘制”将人物和背景分开绘制,以达到减少“视频闪烁”的效果。
这一步有多种方法可以解决:a.在AE中蒙版绘制,该操作需要原视频背景比较干净,和主体部分有明显的色彩差异。操作教程在这里:https://www.youtube.com/watch?v=81L1y3LwX6Yb.如果你付费了Runway,有一种更简单的方式可以提取Alpha Channel序列,那就是使用自动绿幕抠像功能,在选中人物主体后,已经能够比较精准的识别每一帧中的主体信息,即使是在如下案例中,主体和背景差距很小的情况下也表现的优秀(导出的视频仍需使用isnet_Pro插件转成帧,保存为Mask文件夹)Runway绿幕操作过程演示
- 打开EbSynth本地应用,在关键帧之间补帧,最终得到了一堆补帧后生成的图片
- 拖拽刚才生成的文件夹到AE中,编辑成视频并导出
C.🌟Deforum 文/图生视频产品介绍Deforum是一个基于Stable Diffusion的开源项目,可实现复杂的缩放、位移、旋转动画,并且可以同时控制多个帧间隔中的动画差异、提示词差异。可控性远远超过Runway和Pika labs,生成效果也十分惊艳,缺点是控制参数较为复杂,生成时间较长,逐帧重绘方式效率低。项目地址:https://github.com/deforum-art/deforum-stable-diffusion
优秀案例我非常喜欢的一个Deforum案例,使用了多段图生视频剪辑:By Art On Tap
使用方法Deforum的设置比较复杂,需要一些耐心,重要的设置项都在下图中说明了:不同设置项目的差异可以看如下测试,在以下单一参数设置为0:(0.5)时,其中旋转中心点需和角度搭配使用:
看了上面的设置,你可能会感到头痛,如果我们因为一些原因重启SD,所有的项目都要重新设置一遍吗?这里对比其他扩展,Deforum提供了一个非常方便的能力,点击图片生成区域下方的“保存设置”即可将此时Deforum扩展中的所有设置保存,点击“载入所有设置”,除了初始化图像输入框中的图片需要重新导入,其他都可以直接使用。同时每一次视频生成,Deforum都会将运行的设置项代码保存在相应的文件夹中,方便用户回溯。注:Deforum采取的仍然是逐帧绘制的方式,图片尺寸过大,会导致视频生成时间太长。相应的,缩小图片尺寸,生成的细节和细节质量会降低,在对视频效果没啥把握的前期,建议等比缩小视频尺寸。生成满意的效果后再按大图生成最终视频。
实践过程这里我选了一张在Midjourney中绘制的赛车图像,想要描绘赛车在赛车场上飞驰的画面。生成时主要用到了3D控制实现了车身偏移的效果,并且添加了镜头的缩小放大。在尽管比Mov2Mov生成的效果更好,但Deforum还是没法避免闪烁,后面我将介绍另外一款产品Topaz VideoAI来解决这个问题。
资料推荐:文字教程,包含详细的设置效果教学:https://stable-diffusion-art.com/deforum/详细的视频教学:https://www.youtube.com/watch?v=meSF8MsC2PM更硬核的教程,使用Paseq工具更好的控制Deforum的复杂参数:https://www.youtube.com/watch?v=n4zj1lrbIEM
D. Infinite zoom图片无限放大产品介绍Infinite zoom可以基于原图生成高分辨率的无限缩放图像。主要思路是首先生成不同尺度的图像切片,然后通过重叠融合生成无缝的大图像,并可以不断放大浏览。该插件提供Prompt分段输入,分别控制整体场景和样式,近景内容,中景内容和远景内容,方便更细致地控制无限缩放图像的场景与细节。Github:https://github.com/v8hid/infinite-zoom-automatic1111-webui
使用方法比起Deforum,Infinite zoom的设置比较简单,生成图片张数和视频秒数相同。
实践过程实验了几次后发现,即使是蒙版边缘模糊度拉到最高,还是会出现图片之间明显的接缝,图片似乎会以叠加的方式融合,会出现一些内容被生硬盖住的情况。详细的视频教学:https://www.youtube.com/watch?v=qkZXvQ5aMiYhttps://www.youtube.com/watch?v=E6ZYrzn5iWU&t=6s
E.🌟AnimateDiff 文/图生视频产品介绍
F. Warpfusion视频生视频一款视频生视频工具,不过使用前需要购买该程序代码(10刀),使用Google Collab,webui比较复杂。前段时间火爆全网的雕塑跳舞动画就是用该工具生成的。详细教程和效果:https://www.youtube.com/watch?v=mVze7REhjCI
🌟Topaz Video AI产品介绍Topaz Labs成立于2008年,总部位于美国犹他州,是一家图像处理软件公司。最初以Photoshop插件起家,后来转向研发独立软件。其于2022年推出Topaz Video AI,能够提升视频清晰度、支持将视频升级到最高60帧的水平。Topaz还提供了算法模型用于减少闪烁、去噪、去除动态模糊、颜色校正、慢动作等等。该产品可以作为Pika labs、Runway、SD视频生成扩展的最强辅助。价格为299美刀。官方地址: https://www.topazlabs.com/topaz-video-ai使用指南: https://docs.topazlabs.com/video-ai/features/user-interface
实践过程这里我将Deforum中生成的赛车视频案例拖入Topaz中进行优化,将视频帧率提升至50,并且开启了Motion Deblur,优化后视频闪烁问题有了很大改善。可能受限于视频上传压缩,该效果没法为大家完整传递出来。因公众号文章对视频数量的限制,明日发出第二篇~
