AI生成视频发展及应用

原创 BayJ 2023-10-24 20:03 广东

AI生成视频发展到什么程度了，效果如何？有哪些可用的产品方案？网上炫酷的效果如何实现？AI视频的应用场景和案

本篇通过产品介绍和丰富的案例实践，带你了解AI视频有哪些产品，效果如何实现。上篇可戳：AI视频生成(上) | 技术发展概况和应用场景思考因公众号文章对视频数量的限制，明日发出第二篇～

三.产品概况

若从生成方式分类，AI视频生成包含：

文生视频、图生视频

视频生视频

逐帧生成

关键帧+补帧

动态捕捉

视频修复

AI Avatar+语音生成

长视频生短视频

脚本生成+视频匹配

剧情生成

其中蓝色字是我推荐持续关注、尝试使用的产品。
若从产品阶段和可用维度分类：

下面将按照上图维度进行产品介绍。

本节产品适合专业创作者进行电影、MV、宣传片等艺术作品中，有操作简单的Pika labs、Runway，也有基于Stable Diffusion能力延伸的插件。这些产品能够被学习并掌握，因此本节内容除了产品介绍，还会有实践教学的部分。
🌟Runway该产品年初在互联网爆火，泥塑人物的风格化视频想必大家都不陌生：Runway由一家总部位于旧金山的AI创业公司制作，其在2023年初推出的Gen-2代表了当前AI视频领域最前沿的模型。能够通过文字、图片等方式生成4s左右的视频。Runway致力于专业视频剪辑领域的AI体验，同时也在扩展图片AI领域的能力。目前Runway支持在网页、iOS访问，网页端目前支持125积分的免费试用额度(可生成约105s视频)，iOS则有200多，两端额度貌似并不同步，想要更多试用次数的朋友可以下载iOS版本。官方网站：https://runwayml.com/
Gen-1 和Gen-2 的区别和使用方法Gen-1Gen-1的主要能力有：视频生视频（Video 2 Video）、视频风格化、故事版（将实体模型风格化）、遮罩等其中，仅支持视频生视频是Gen-1 和Gen-2的最大差异。
Gen-1 使用流程:Gen-1 能力介绍：https://research.runwayml.com/gen1

Gen-1 参数设置: https://help.runwayml.com/hc/en-us/articles/15161225169171

也可以看这个视频学习Gen-1的详细设置方式：https://youtu.be/I4OeYcYf0Sc

Gen-2Gen-2的主要能力有：文生视频（Text 2 Video ）、Prompt+图像生成视频（Text + Image to Video ）也支持无Prompt直接图片转视频（Image to Video），通常图生视频时，更推荐使用Image to Video。想要使用Gen-2，点击顶部的Start with Image、Start with Text 即可。🌟Text to Video时,建议优先使用右下角的“Free Preview”免费生成多组图片,然后从中选择一张进行视频生成，这样可以节约credits。Runway最近的更新中，支持将4s的视频延长，每次延长需要消耗20credits ，从Runway的付费情况来看，有点用不起。
Motion控制9月的更新中，runway支持了1-10级的motion slider调节，默认幅度为5
运镜能力同时支持了水平、垂直、空间和旋转，并且支持调节运动速度
30多项图片、视频处理能力除了最基础的图像、视频生成能力，Runway还提供30多项图片、视频处理能力，包含：Inpainting 视频修复；Motion Tracking视频主体跟随运动；Remove Any Background删除视频元素/背景；3D Texture生成3D纹理等。

推荐这个教程，基本功能都有介绍一遍：ai 繪圖教學 | Ai动画:https://www.youtube.com/watch?v=Yj73NRmeSZM
Watch近期Runway控制台上线了Watch 模块，可以查看官方精选的创意案例。

🌟Pika labs该产品目前推出了Beta 版本，支持免费、不限次数地文生视频、图生视频,和Runway一样, 生成的视频会带上官方水印。Pika labs很少披露其产品、技术的详细情况，官网也没有花精力好好做，在国内外的影响力都没有Runway大，但其生成效果足以站上AI视频的牌桌。官方Twitter：https://twitter.com/pika_labs
优秀案例：这位导演用Pika labs产出的视频都非常高质量：By：Matan Cohen-Grumi
使用方法1.目前在Discord试用Beta版本：http://discord.gg/pika2.选择generate-x开头的频道或者建立pika labs私信3."/create" 输入prompt 即可完成文生视频输入prompt后，点击“增加1”可添加image进行文+图生视频如果你想仅输入图片，不输入Prompt来生成视频，可以使用/animate命令此外，🔄 可以帮助用户快速进行多次生成,🔀则可以方便的可控参数能基本满足需求。
文本、图像加密9月，pika更新了新能力加密信息。使用命令/encrypt_text，可以将最多 20 个字符的文本“加密”到给定的视频输出中。By：Matan Cohen-Grumi

而/encrypt_image，则可以实现输入logo image，生成图像动画中含有logo的效果：

By：Matan Cohen-Grumi值得一提的是，最好将logo文件处理为黑底白图，否则pika labs可能无法识别。使用/encrypt_image命令时，除了输入一张logo image，还可以选择性增加一张垫图，垫图会对视频整体风格、内容产生影响。
控制参数介绍
Pika labs和Runway Gen-2效果对比A.生成效果对比Runway VS Pika（8月版）B.运镜控制效果对比Runway VS Pika（By好友：瑶酱）
C.对比小结

可控性经过9月runway在控制器上的大更新，目前两者的控制能力不相上下。细节上，Runway在motion控制效果上略胜一筹，而Pika labs在图形、文字的显示上更快一步。

连贯性旧版Pika labs在帧的连贯性上差一些，但近期官方将帧数改为24帧后效果提升显著，和Runway没有较大差异。

生成效果在尝试并看过很多案例发现,Runway生成效果通常比Pika labs的生成效果动作幅度更大更夸张,这也是导致Runway生成的许多效果有明显瑕疵的原因。在一些场景下，我个人更喜欢Pika labs在细节上呈现的高水平动态效果，能够保证主体物没有明显变形和风格化。但Pika labs总是呈现物体动而背景静止的效果，Runway的大幅度变化有时能带来更多意想不到的效果。我们也可以通过Prompt或者在pika中增加镜头变换（对，不是motion，前面说过pika在motion上控制效果不显著）来增加运动幅度。

价格Runway 最低档的充值每月15刀, 而Pika labs目前完全免费。总的来说,目前runway 和pika labs都需要反复测试视频生成效果,并通过后期的剪辑处理形成可用的,效果不错的视频内容。由于Runway尝试次数实在有限,我个人还是喜欢使用Pika labs更多一点。
更多效果对比可查看: https://youtu.be/CB_Y-5yaQ-M

Stable Diffusion +这应该是目前最具备可控性的一种AI视频生产方式了, 同时也具备着一定上手成本。最早是看到海辛的分享，通过学习Nenly同学（B站）的保姆级教程(从安装到使用包教包会)和具体工具教程一步步理清思路并进行了案例实践。下面对用到的具体插件进行详细介绍,由于过程确实复杂,理解起来需要一定门槛,对SD不感兴趣的同学可以跳过这一段,继续看其他产品案例就好。
准备工作1.安装并掌握简单的Stable Diffusion基础，确保FFmpeg被安装（这将保证后续介绍的扩展能够生成视频预览）。2.准备好图片、视频素材这里推荐新手选取单人、简单场景、简单动作变化的视频，会更容易出效果（我选择的蜘蛛侠人物、动作变化多，前景色和背景色区别小，在生成时容易踩坑）；另外需控制视频的长度，否则生成时间会过长。
A. Mov2Mov 逐帧重绘产品介绍：最早火起来的SD动画插件之一，mov2mov的原理是提取视频的帧，并将每一帧按照用户设置的模型和prompt重新绘制，然后将生成的视频组合成视频并输出。对比SD自带的批量图生图,更推荐mov2mov插件。直接通过提示词控制、生成最终视频,省去了用其他视频产品将多张图片转成视频的过程。但比起Deforum，Mov2Mov的能力比较单一，生成视频的闪烁也较大，胜在操作十分简单。
实践过程：1.用SD的isnet_Pro插件将视频转成帧2.选取其中一帧，尝试不同模型、Lora、Prompt下的效果，最终我选取了Counterfeit的二次元风格模型和其对应的VAE，该模型绘制效果偏复古漫画风格。提示词微调的情况下，不同大模型绘制出的效果
3.下载mov2mov插件，并使用视频转视频，等待一段较长的时间后就可以在output文件夹内看到视频效果啦。为了加快生成速度，我将视频等比缩小成了960*540尺寸进行生成(此举会对风格化效果有所影响：与原图1:1输出时,风格化效果偏2.5D,1：0.5输出时，效果偏2D,不过这不影响我们了解mov2mov的效果)最终效果演示推荐Nenly同学的mov2mov教程:https://www.bilibili.com/video/BV1Su411b7Nm/?vd_source=1f2c69c20edd956939a5f89d3462987f

B. EbSynth 自动补帧产品介绍：EbSynth 是一款轻量的图片处理软件，早在19年就公开发布。AI绘画火爆后，许多创作者使用EbSynth自动生成关键帧之间的过渡帧,从而实现静态图像到动画的转换。相较mov2mov逐帧转绘的方法，EbSynth可大幅降低动画制作的时间。

官网下载客户端：https://ebsynth.com/
实践过程：通过手动抽取关键帧，随后进行关键帧重绘，再使用EbSynth桌面端软件补帧并使用AE图片序列转视频1.先使用SD的isnet_Pro插件将视频转成帧2.人工选取一些动作有明显变化的关键帧，放在SD图生图中逐张进行风格化3.提取视频的蒙版，将视频导出Alpha Channel序列，方便后续导入EbSynth Mask类目。开启“蒙版绘制”将人物和背景分开绘制，以达到减少“视频闪烁”的效果。
这一步有多种方法可以解决：a.在AE中蒙版绘制，该操作需要原视频背景比较干净,和主体部分有明显的色彩差异。操作教程在这里：https://www.youtube.com/watch?v=81L1y3LwX6Yb.如果你付费了Runway，有一种更简单的方式可以提取Alpha Channel序列，那就是使用自动绿幕抠像功能，在选中人物主体后，已经能够比较精准的识别每一帧中的主体信息，即使是在如下案例中，主体和背景差距很小的情况下也表现的优秀（导出的视频仍需使用isnet_Pro插件转成帧，保存为Mask文件夹）Runway绿幕操作过程演示

打开EbSynth本地应用,在关键帧之间补帧，最终得到了一堆补帧后生成的图片

拖拽刚才生成的文件夹到AE中，编辑成视频并导出EbSynth视频生成效果Miles整体的动画效果不错，而Gwen在动作范围变化较大的时候还存在较多瑕疵，此时应该增加更多风格化关键帧，这里作为案例演示，不再深入了。另外如果在图像生成过程中增加controlnet控制，生成的图像效果应该能够保持更多的一致性。（另外EbSynth 还有一款SD插件，配合安装额外工具可以最大程度的将AI视频生成工作流保留在SD中，但经过尝试不推荐使用mac系统的同学使用，额外工具在mac上的安装较为繁琐，插件存在运行bug。使用Windows系统的同学可参考Nenly同学的教程: https://www.bilibili.com/video/BV1uX4y1H7U3/?vd_source=1f2c69c20edd956939a5f89d3462987f ）总的来说，EbSynth可以在仅生成1/10-1/5风格化关键帧的同时通过补帧达到不错的视频效果。

C.🌟Deforum 文/图生视频产品介绍Deforum是一个基于Stable Diffusion的开源项目，可实现复杂的缩放、位移、旋转动画，并且可以同时控制多个帧间隔中的动画差异、提示词差异。可控性远远超过Runway和Pika labs，生成效果也十分惊艳，缺点是控制参数较为复杂，生成时间较长，逐帧重绘方式效率低。项目地址：https://github.com/deforum-art/deforum-stable-diffusion
优秀案例我非常喜欢的一个Deforum案例，使用了多段图生视频剪辑：

By Art On Tap
使用方法Deforum的设置比较复杂，需要一些耐心，重要的设置项都在下图中说明了：不同设置项目的差异可以看如下测试，在以下单一参数设置为0:(0.5)时，其中旋转中心点需和角度搭配使用：
看了上面的设置，你可能会感到头痛，如果我们因为一些原因重启SD，所有的项目都要重新设置一遍吗？这里对比其他扩展，Deforum提供了一个非常方便的能力，点击图片生成区域下方的“保存设置”即可将此时Deforum扩展中的所有设置保存，点击“载入所有设置”，除了初始化图像输入框中的图片需要重新导入，其他都可以直接使用。同时每一次视频生成，Deforum都会将运行的设置项代码保存在相应的文件夹中，方便用户回溯。注：Deforum采取的仍然是逐帧绘制的方式，图片尺寸过大，会导致视频生成时间太长。相应的，缩小图片尺寸，生成的细节和细节质量会降低，在对视频效果没啥把握的前期，建议等比缩小视频尺寸。生成满意的效果后再按大图生成最终视频。
实践过程这里我选了一张在Midjourney中绘制的赛车图像，想要描绘赛车在赛车场上飞驰的画面。生成时主要用到了3D控制实现了车身偏移的效果，并且添加了镜头的缩小放大。在尽管比Mov2Mov生成的效果更好，但Deforum还是没法避免闪烁，后面我将介绍另外一款产品Topaz VideoAI来解决这个问题。
资料推荐：文字教程，包含详细的设置效果教学：https://stable-diffusion-art.com/deforum/详细的视频教学：https://www.youtube.com/watch?v=meSF8MsC2PM更硬核的教程，使用Paseq工具更好的控制Deforum的复杂参数：https://www.youtube.com/watch?v=n4zj1lrbIEM

D. Infinite zoom图片无限放大产品介绍Infinite zoom可以基于原图生成高分辨率的无限缩放图像。主要思路是首先生成不同尺度的图像切片,然后通过重叠融合生成无缝的大图像,并可以不断放大浏览。该插件提供Prompt分段输入,分别控制整体场景和样式,近景内容,中景内容和远景内容，方便更细致地控制无限缩放图像的场景与细节。Github：https://github.com/v8hid/infinite-zoom-automatic1111-webui
使用方法比起Deforum，Infinite zoom的设置比较简单，生成图片张数和视频秒数相同。
实践过程实验了几次后发现，即使是蒙版边缘模糊度拉到最高，还是会出现图片之间明显的接缝，图片似乎会以叠加的方式融合，会出现一些内容被生硬盖住的情况。详细的视频教学：https://www.youtube.com/watch?v=qkZXvQ5aMiY https://www.youtube.com/watch?v=E6ZYrzn5iWU&t=6s

E.🌟AnimateDiff 文/图生视频产品介绍

首先需要安装SD扩展并下载对应的运动模型。在SD的文生图Tab中可以找到AnimateDiff 菜单，启用后，在生成图片的同时还会生成视频。9月，AnimateDiff也发布了相机运动控制模块，不过需要分别下载模型来实现。

近期更新中，AnimateDiff能够实现类似Deforum、Infinite Zoom中的分段提示词能力，直接在正向Prompt输入框中使用格式提示词即可实现。

ComfyUI是另一个基于Stable Diffusion的图形用户界面，可以通过拖拽图片的方式导入他人的工作流，部署也比SD webui更简单，生成速度快，缺点是节点控制比较复杂，深度学习有一定门槛。近期ComfyUI在AnimateDiff扩展的使用上受到欢迎。

使用ComfyUI+AnimateDiff还能突破webui中AnimateDiff最高32帧的限制，在Comfy UI的AnimateDiff扩展git地址中，我们可以复用作者的工作流快速复现效果：https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

资料推荐Stable Diffusion webui扩展地址：https://github.com/continue-revolution/sd-webui-animatediff.gitAnimateDiff Motion Modules下载地址：https://civitai.com/models/108836Comfy UI git：https://github.com/comfyanonymous/ComfyUI#manual-install-windows-linuxComfy UI Mac安装教程：https://stable-diffusion-art.com/how-to-install-comfyui/Comfy UI Manager安装、AnimateDiff安装和初步使用：https://www.youtube.com/watch?v=SGivydaBj2w

F. Warpfusion视频生视频一款视频生视频工具，不过使用前需要购买该程序代码（10刀）,使用Google Collab，webui比较复杂。前段时间火爆全网的雕塑跳舞动画就是用该工具生成的。

详细教程和效果：https://www.youtube.com/watch?v=mVze7REhjCI

🌟Topaz Video AI产品介绍Topaz Labs成立于2008年,总部位于美国犹他州,是一家图像处理软件公司。最初以Photoshop插件起家,后来转向研发独立软件。其于2022年推出Topaz Video AI，能够提升视频清晰度、支持将视频升级到最高60帧的水平。Topaz还提供了算法模型用于减少闪烁、去噪、去除动态模糊、颜色校正、慢动作等等。该产品可以作为Pika labs、Runway、SD视频生成扩展的最强辅助。价格为299美刀。官方地址: https://www.topazlabs.com/topaz-video-ai使用指南: https://docs.topazlabs.com/video-ai/features/user-interface
实践过程这里我将Deforum中生成的赛车视频案例拖入Topaz中进行优化,将视频帧率提升至50，并且开启了Motion Deblur，优化后视频闪烁问题有了很大改善。可能受限于视频上传压缩，该效果没法为大家完整传递出来。

因公众号文章对视频数量的限制，明日发出第二篇～

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签