即梦Omnihuman 1.5：AI数字人视频生成新篇章

歸藏的AI工具箱 09月30日

即梦在其Web端上线了数字人Omnihuman 1.5版本，大幅提升了AI数字人视频生成的控制能力。新版本不仅能生成带有唇形同步的动态视频，更重要的是，用户可以通过动作描述提示词，精确定义人物的表演和运动方式，甚至可以控制镜头运动和多角色互动。这使得AI视频创作从过去的“玄学”转变为“工程学”，创作者可以更精细地控制画面内容、人物情绪、音色、运动及运镜方式，极大地拓展了数字人的应用场景，堪比自定义程度极高的Veo3。无论是生成名人数字人进行营销，还是实现复杂的表演和多人物对话，Omnihuman 1.5都提供了强大的支持，并解决了以往模型中嘴型夸张、表情僵硬等问题，为AI视频创作带来了更专业、更可控的体验。

✨ **增强的控制力与表现力**：Omnihuman 1.5 相较于前代版本，在人物表演和运动控制方面有了质的飞跃。通过新增的动作描述提示词，用户可以精确指导人物的表情、情绪变化、肢体动作，甚至包括镜头运动和运镜方式。这使得AI生成的数字人视频不再僵板，能够呈现出更自然、更生动的表演，极大地丰富了数字人的应用场景，使其能够胜任更复杂的叙事和表演需求。

🎬 **从“玄学”到“工程学”的转变**：新版本将AI视频创作过程从以往难以预测的“玄学”转变为高度工程化的流程。用户现在可以通过输入首帧图片、音频、动作和情绪提示词，以及分镜脚本，来精准控制视频的每一个细节，如同精密导演监视器一般。这种精细化的控制能力，使得创作者能够将更多精力投入到创意本身，而非反复试错，从而提升了创作效率和作品质量。

🤝 **多角色互动与跨风格应用**：Omnihuman 1.5 显著提升了对同一场景下多角色的控制能力，能够指定声音由哪个角色发出，支持多人对话和互动视频的生成，为创作更复杂的剧情提供了可能。此外，新模型在多风格化和非人形生物的唇形同步上也表现出色，即使是平面插画风格的数字人，其面部运动也十分自然生动，同时支持动作和镜头平移，展现了模型强大的跨风格适应性和表现力。

🛠️ **创作流程优化与素材准备**：教程详细介绍了使用Omnihuman 1.5生成数字人视频的流程，包括准备首帧图片、音频以及动作和情绪提示词。建议用户通过表格管理分镜素材，并提供了图像、音频（包括音色克隆和上传）以及动作描述等基础操作指南。通过将长视频切分成多个短镜头，并结合即梦4.0的图像编辑能力，可以更高效地制作出具有高度模拟真实发布会场景的数字人视频，有效避免了长生成时间和ID保持不住的问题。

原创歸藏的 AI 工具箱 2025-09-29 18:08 北京

前几天即梦在 Web 端上线他们的数字人 Omnihuman 1.5 版本。教大家怎么用图像模型配合生成名人数字人视频。

前几天即梦在 Web 端上线他们的数字人 Omnihuman 1.5 版本。

今天来做个测试，同时有个教程教大家怎么用图像模型配合生成名人数字人视频。

相较于之前的 Omnihuman 1.0，这次不只是上传音频和图片他帮你生成带有唇形同步的动态视频，1.5 的控制能力大幅提升，你可以定义视频中的人物表演和运动方式。

几乎搞定了原来 AI 视频不好做的人物表现部分内容。

可以看到在设置部分多了一个动作描述的提示词输入，极大的拓展了数字人的使用场景，基本上可以当一个自定义程度极高的 Veo3 来使用了，你可以控制画面内容、人物、情绪、音色以及运动和运镜方式。

昨天用这个做了一个比较搞的片子，最近不是模仿名人营销很火吗，我做了一个让乔布斯卖破拖鞋的演讲，这种具有热门视觉标定和反差感的视频非常容易火。

我们先用几个基础测试来看一下 Omnihuman 1.5 的能力。

然后我会教一下大家如何用即梦图片 4.0 和数字人 1.5 配合生成这种连贯的数字人视频。

这次更新最明显的一个改动就是数字人不再死板，我们可以通过动作控制让镜头和人物动起来，包括不只是主角也包括其他人物。

比如上面这个案例，我们就可以让女子先抬头，到一个合适可以看到嘴唇的角度，然后再开始说话，同时镜头也在旋转到她的正脸，背后的其他人也在正常行走，这是纯粹的唇形同步模型不能做到的。

另外这次的模型升级在多风格化以及非人形生物的唇形同步上效果也变得非常的自然。

这里这种平面插画的眼睛、嘴部和面部运动都非常自然而且生动，同时依然可以搭配他的动作比如抬手走动等，镜头平移的时候新出现的画面风格也跟原来的很好的保持一致。

这次更新的另一个优势是对表情和表演的响应也更得加的好，上面的提示词为：

女人先以平静神情看向镜头，眼神柔和轻声开口；随即露出讽刺的表情，眉梢微挑、嘴角单侧上扬；短促轻笑后肩部微松；转为温和讲述，目光上扬，右手轻触前景桌上的纸船；最后前倾半步以低语收束，食指轻抵唇边作“嘘”。

可以看到他响应的很好，先是面无表情的说话，然后变成讽刺的表情，之后非常顺畅的在轻笑之后变得温和，然后人物后撤开始看向纸船，最后嘘的动作也做了。

整个视频长达 16 秒，这个长度和提示词词遵循已经非常厉害了，市面上可以做到这么稳定的保持人像 ID 不变同时精准的提示词遵循的几乎没有。

这次更新还有一个优势就是可以控制同一场景多人的对话和表现，我们可以指定声音是由哪个角色发出的，这个一下就让模型的可用性拓展了很多。

比如这里我们就可以做两人的对唱视频，多人对话剧情也可以做了，搭配即梦 4 的改图能力去调整镜头的重点很容易就可以最常见的对话剧情，比某些只会一个固定镜头的电视剧强多了。

从上面这几个测试也可以看到，以往类似模型那种夸张的嘴型问题也一定程度上得到了解决，不再是所有角色说话嘴都张的很大了，模型现在会根据声音内容和提示词去调整，表现自然了非常多。

现在来看数字人教程的部分。

即梦的数字人 1.5 虽然可控和操作简单是跷跷板的两个部分，一般来说可控的模型操作就会相对复杂，所以还是需要一些门槛的。

我们可以看到数字人 1.5 做条视频需要准备三部分内容，首先是首帧的图片，然后就是音频，最后就是对应的动作和情绪提示词。

如果你需要这个视频更加的生动，就必然不可能一直用一个视角和背景，所以我们需要更多的分镜图片和对音频进行切分，这样会让画面更生动。

这里我建议你先准备一个表格将每个分镜的这三个部分写好，然后我们看怎么去准备。

然后我们来讲一下基础的操作：

图像这里没啥问题你直接上传首帧图片就可以。

音频这里说法比较多：

如果你自己没有准备音频的话，你需要直接选择音频部分，这时候即梦一般会根据你上传的角色推荐一个音色，当然你也可以自己选择，选择完成后在说话内容这里直接打字写上要说的话就行。

当然你也可以在音色选择的弹窗「我的音色」这里去克隆你想用的音色，只需要 5 秒音频就行。

如果你自己有音频，这时候你需要点击下面的「上传音频」按钮，音频就会回填，这时候角色说这部分就变成你上传的音频了不能打字。

另外还有一种情况是，你上传的画面里有多个角色，这时候即梦就会自动检测到，你就可以选择是图片中的哪个角色在说话，可以选单个，也可以选全部。

比如他检测到我这张图片有两个人，就会有三个选项，而且会有对应角色的切图，很直观。

最后是动作描述，这里可以用他们推荐的提示词模板，尽量遵循清晰、不矛盾、少否定，多写具体的内容，少用文学化和形容词表达。

提示词模板：

镜头运动 + 说话角色情绪 + 说话状态（说话/哭泣/唱歌/...） + 具体动作 + （可选）背景事件/其他角色的动作

了解完基础操作之后我们就需要开始准备素材了，首先我们克隆一下乔布斯的音色，你可以用即梦自带的克隆功能，也可以自己用更大的数据量操作，我这里用的自己克隆的。

然后就是第一张图片，我上面的分镜表格这里显示我们需要一张黑色背景的，提示词：Black stage medium shot. Steve Jobs facing the camera，The background is a pure black PPT screen.

然后我们还需要一张拖鞋产品图，哈哈，这里我用即梦生成的，提示词写像苹果 PPT 就行。

苹果风格发布会 PPT，一直非常破的破拖鞋，上面产品名字写着“iFlip One”

只有这两个画面太单调了怎么办，这个时候就得用即梦 4.0 的图像编辑能力了。

我们直接将原来第一张图的黑色 PPT 背景变成刚做的拖鞋 PPT。

当然第三个分镜将会基于第二张图去修改，直接给我们的拖鞋加上挂钩，同时改掉 PPT 上的文字。

这样三张非常模拟乔布斯发布会场景的图片就做出来的，是不是已经有那个味了。

然后我们将所有台词分成三段生成，第一段是提出悬念，然后第二段展示拖鞋，第三段介绍挂钩和发售。

然后按照刚才的介绍的基础操作分别将图片上传，然后写上表格里面的语音和对应的运镜及动作就行。

等待视频的完成，之后的事情你们应该都会了，用剪映之类的把三段合成一段视频就行。

这种方式比单镜头的数字人效果要好非常多，同时通过切分镜头避免了超长镜头导致的长生成时间和 ID 保持不住的问题，再来看一下我们的结果：

近年来 AI 视频模型飞速发展，一直以来视频模型就是视频模型，唇形同步模型就是唇形同步模型，这样正常影视流程中最常见的动作运镜以及人物表演，被区分成了两个部分。

过去我们面对 AI 视频模型，就像在跟一个才华横溢但性格古怪的艺术家合作。你给出「一个悲伤的女人在雨中行走」这样的提示词，然后祈祷它能理解你心中的「悲伤」是克制的还是崩溃的，「行走」是踉跄的还是决绝的。每一次生成都像开盲盒，创作者被迫成为赌徒去抽卡。

Omnihuman 1.5 呈现的状态更像是一台精密的导演监视器：首帧画面 = 场景设定、音频内容 = 台词剧本、动作提示 = 分镜脚本、多角色控制 = 群戏调度。把创作从玄学变成了工程学。

当然 AI 指令精确之后，对于创作者的要求也变高了，那些更懂表演、调度具备「应该让它执行什么指令」的导演思维的人更能发挥这个模型的价值。

据悉，新模型9月30日也将同步上线即梦手机端，届时在软件商店更新最新版本即梦app，就能体验。

如果觉得藏师傅的内容对你有帮助的话，可以帮忙点个赞👍和喜欢🩷，也可以✈️转给你具有导演思维的朋友，谢谢各位

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签