可灵1.6：最强图生视频模型！写实和风格化只要它就够了

原创歸藏的 AI 工具箱 2024-12-19 17:20 北京

前几天刚测试完可灵的视频Lora模型功能，1.6就又要发布了。　

试完之后我可以说可灵1.6就是现在的最强图生视频模型。

前几天刚测试完可灵的视频Lora模型功能，1.6就又要发布了。　

试完之后我可以说可灵1.6就是现在的最强图生视频模型。　

常见写实内容强就算了，风格化图片的视频生成才是重点，这个真是断档的强，写实视频其他模型多抽卡也行，风格化这个表现的表现其他模型抽卡都不好搞，后面会介绍风格化的部分。　

先来看看全面的文生和图生对比测试，刚好跟Sora测试的视频还在就多跑了一份1.6，对比可以说非常明显了。　

文本响应度提升：对对运动、时序类动作、运镜提示词的响应明显变强，比如下面这个内容，镜头推进这个是基本的他搞得不错，强的是希区柯克变焦这个词，我试过很多都不行，它居然搞定了，而且这还是风格化的图片，本身内容识别就困难。　

图生视频、提示词：镜头推近，希区柯克变焦，太阳缓慢升起，飘落得红叶，流动的云雾　

物理世界理解和真实感提升：这个其实有一个很好的例子就是前几天Veo的那个切牛肉的例子，这个例子有两个递进的难点，首先是刀要切下去，切下去的时候手部动作和肉的反馈，这个之前1.5可以搞定，也是除了Veo唯二搞定的。　

第二个难点是切出去的肉需要拿刀扒拉过去，扒拉过去之后肉的大小和材质不能发生变化，这个前几天没有一个可以做到，这次1.6表现的很好，我甚至都没抽卡，一次就出了。　

文生视频、提示词：一双手在木制切菜板上熟练地切割一块完美烹饪的牛排，淡淡的蒸汽从牛排上升起。　

最后就是画面质量的提升：这个也很明显，1.6虽然分辨率没有提升，但是整体画面中运动的部分明显增多，如果是文生的话可以看到画面明显变得丰富了很多，比如下面这个柿子树，逆光效果还有阳光下的雪花，还有远处的山脉和镜头移动后附近的灌木细节都很明显。　

文生视频、提示词：冬天，孤零零的柿子树在白雪皑皑的山坡上独占鳌头，雪花围绕着饱经风霜的树干飘舞，远处的群山在冬雾中若隐若现，宛如中国传统绘画中的笔触。　

基础的测试就是上面的部分，我在测试中突然试了一下 2D 图片后发现，可灵 1.6 跑高风格化图生视频质量高的离谱，来看看完整的测试视频。　

其实由于写实视频素材很多，所以视频模型写实做的好是正常的，但是风格化其实很难搞，不同的风格化图片运动方式都不一样，之前很多视频模型处理风格化图片出现违和的 3D 化也是这个原因。　

而且风格化或者说非写实内容其实对内容创作成本节省也更大，渲染或者绘制内容的成本要比真人演出高很多，所以这部分的能力提升对创作者帮助非常大。　

先来看一下非写实内容，这里指的是类似一些偏 3D 的但是现实中没有的场景或者事物运动，比如这个龙在吐息的场景，可以看到龙的毛发被风吹动的时候每一根都在动而且很合理，龙须也是一样的，说明一些非现实内容，的运动方式他也学习的很好。　

另外就是一些奇怪的姿势和艺术化表达，比如下面这个例子，这个图片画出来的时候我都无法想象她应该怎么动，而且角色大部分的装饰和其他身体部位是没有露出的，结果出来的时候我都傻了，可灵不止动起来了，运动幅度还很大，自己脑补的配饰和肢体都跟原来的画面风格非常相似。　

最后是画面笔触和纹理非常独特的一些风格图片，比如下面这个雪天的小女孩，整体的笔触非常的特别，运动的时候就需要模型补全这种非常独特的笔触，可灵的雪花运动幅度都很大，而且后面新出现的雪花也保持了已有的风格。　

昨天尝试玩可灵 1.6 之后我还说相较于死气沉沉的大语言模型领域，图片和视频的进步太令人欣喜了，每周、每个月都有肉眼可见的进步。　

可灵这次 1.6 进步之大我觉得叫 2.0 也不过分，但是他们依然只把版本号往前提了0.1，说明他们对于自己能力和模型相当自信，无法想象可灵 2.0 该是什么样的表现。　

我现在还记得可灵 1.0 发布的那个下午和我看到演示时激动的场景，短短半年时间他们让这种场景出现了很多次，真的很强。　

Fish AI Reader