原创 歸藏的 AI 工具箱 2024-12-19 17:20 北京
前几天刚测试完可灵的视频Lora模型功能,1.6就又要发布了。
试完之后我可以说可灵1.6就是现在的最强图生视频模型。
前几天刚测试完可灵的视频Lora模型功能,1.6就又要发布了。
试完之后我可以说可灵1.6就是现在的最强图生视频模型。
常见写实内容强就算了,风格化图片的视频生成才是重点,这个真是断档的强,写实视频其他模型多抽卡也行,风格化这个表现的表现其他模型抽卡都不好搞,后面会介绍风格化的部分。
先来看看全面的文生和图生对比测试,刚好跟Sora测试的视频还在就多跑了一份1.6,对比可以说非常明显了。
文本响应度提升:对对运动、时序类动作、运镜提示词的响应明显变强,比如下面这个内容,镜头推进这个是基本的他搞得不错,强的是希区柯克变焦这个词,我试过很多都不行,它居然搞定了,而且这还是风格化的图片,本身内容识别就困难。
图生视频、提示词:镜头推近,希区柯克变焦,太阳缓慢升起,飘落得红叶,流动的云雾
物理世界理解和真实感提升:这个其实有一个很好的例子就是前几天Veo的那个切牛肉的例子,这个例子有两个递进的难点,首先是刀要切下去,切下去的时候手部动作和肉的反馈,这个之前1.5可以搞定,也是除了Veo唯二搞定的。
第二个难点是切出去的肉需要拿刀扒拉过去,扒拉过去之后肉的大小和材质不能发生变化,这个前几天没有一个可以做到,这次1.6表现的很好,我甚至都没抽卡,一次就出了。
文生视频、提示词:一双手在木制切菜板上熟练地切割一块完美烹饪的牛排,淡淡的蒸汽从牛排上升起。
最后就是画面质量的提升:这个也很明显,1.6虽然分辨率没有提升,但是整体画面中运动的部分明显增多,如果是文生的话可以看到画面明显变得丰富了很多,比如下面这个柿子树,逆光效果还有阳光下的雪花,还有远处的山脉和镜头移动后附近的灌木细节都很明显。
文生视频、提示词:冬天,孤零零的柿子树在白雪皑皑的山坡上独占鳌头,雪花围绕着饱经风霜的树干飘舞,远处的群山在冬雾中若隐若现,宛如中国传统绘画中的笔触。
基础的测试就是上面的部分,我在测试中突然试了一下 2D 图片后发现,可灵 1.6 跑高风格化图生视频质量高的离谱,来看看完整的测试视频。
其实由于写实视频素材很多,所以视频模型写实做的好是正常的,但是风格化其实很难搞,不同的风格化图片运动方式都不一样,之前很多视频模型处理风格化图片出现违和的 3D 化也是这个原因。
而且风格化或者说非写实内容其实对内容创作成本节省也更大,渲染或者绘制内容的成本要比真人演出高很多,所以这部分的能力提升对创作者帮助非常大。
先来看一下非写实内容,这里指的是类似一些偏 3D 的但是现实中没有的场景或者事物运动,比如这个龙在吐息的场景,可以看到龙的毛发被风吹动的时候每一根都在动而且很合理,龙须也是一样的,说明一些非现实内容,的运动方式他也学习的很好。
另外就是一些奇怪的姿势和艺术化表达,比如下面这个例子,这个图片画出来的时候我都无法想象她应该怎么动,而且角色大部分的装饰和其他身体部位是没有露出的,结果出来的时候我都傻了,可灵不止动起来了,运动幅度还很大,自己脑补的配饰和肢体都跟原来的画面风格非常相似。
最后是画面笔触和纹理非常独特的一些风格图片,比如下面这个雪天的小女孩,整体的笔触非常的特别,运动的时候就需要模型补全这种非常独特的笔触,可灵的雪花运动幅度都很大,而且后面新出现的雪花也保持了已有的风格。
昨天尝试玩可灵 1.6 之后我还说相较于死气沉沉的大语言模型领域,图片和视频的进步太令人欣喜了,每周、每个月都有肉眼可见的进步。
可灵这次 1.6 进步之大我觉得叫 2.0 也不过分,但是他们依然只把版本号往前提了0.1,说明他们对于自己能力和模型相当自信,无法想象可灵 2.0 该是什么样的表现。
我现在还记得可灵 1.0 发布的那个下午和我看到演示时激动的场景,短短半年时间他们让这种场景出现了很多次,真的很强。
