GAGA-1：细节丰富的AI人物对话表演模型

歸藏的AI工具箱 10月11日 00:45

曹越（Sand.ai）发布的新模型GAGA-1在人物对话表演方面表现出色，甚至在某些细节上超越了Sora2。该模型能同时生成声音和画面，唇形同步精准，语音音效与面部表情、声音声调配合默契，表演细腻且自然。GAGA-1支持双人场景演绎，能够理解并支持多语言混合输出，目前提供免费体验，单次生成最长10秒，分辨率720P。测试显示，其在处理细微表情、口型与语音的同步、环境音效的配合以及复杂情绪的表达上都展现出高度的智能和泛化能力，尤其在场景化的情绪表现上表现突出。虽然在复杂手部动作和多于双人场景时存在一些局限，但整体而言，GAGA-1在语音和表演方面达到了新的高度，标志着AI视频模型正朝着端到端的多模态一体化输出发展。

🎭 **卓越的人物表情与表演细节**：GAGA-1在捕捉人物细微的面部表情和表演上表现出惊人的能力，如眼神、挑眉、点头等，这些细节的真实性远超其他模型，甚至能智能推导出如叹气等表演状态，展现出强大的泛化智能。

🗣️ **精准的口型同步与多语言支持**：该模型能够实现非常精准的口型同步，即使在快速的顺口溜或多语言混合输出时也能保持高水准。它完美支持中文，并在英语、日语、西班牙语等多种语言的自然度和表现力上同样出色，显示出其跨语言的通用性。

🎬 **场景化情绪与音效的深度融合**：GAGA-1能够根据场景需求，智能地加入环境音效（如雨声、杯子碰撞声）并配合恰当的背景音乐，同时在人物情绪表达上，如羞耻、绝望、恳求等复杂情绪，能够通过面部表情、声音变化和肢体语言（如发抖）进行细腻的演绎，大大增强了内容的真实感和感染力。

👯 **双人互动与场景演绎的进步**：在双人对话场景中，GAGA-1能够准确识别并演绎不同角色的语音、表情和动作，即使是侧脸也能保持良好的唇形同步和面部表情。模型还能智能地处理对话的分配，使场景更加生动，且在办公室吵架等高强度情绪互动中表现依然稳定。

原创歸藏的 AI 工具箱 2025-10-10 18:00 北京

提前试了一下曹越（Sand.ai）那边新发布的专注于人物对话表演的模型 GAGA-1，应该是目前涉及到人物细微表演对话的最强模型了

提前试了一下曹越（Sand.ai）那边新发布的专注于人物对话表演的模型 GAGA-1（gaga.art）.

应该是目前涉及到人物细微表演对话的最强模型了，在表演这部分甚至可以超过 Sora2。

本来就是随便试一下，没想到他这么猛，先来看一个简要介绍和我测试的混剪：

声音和画面一起生成，即使是侧面的唇形同步都非常到位，语音音效都有面部表情和声音声调配合的非常好，表演细腻不夸张，提示遵循也很好支持双人的场景演绎，可以很好的理解提示词中不同人物的语音支持多语言输出，我测试完之后发现甚至可以多语言混合输出目前支持免费体验，支持图生、单次生成最长 10 秒，分辨率为 720P，但是细节丰富

首先是一些基础的测试，比如让他介绍一下自己。

先平静微笑，说：“嗨，我在测试 Gaga AI。”再认真一点说：“你觉得它表现怎么样。”

可以看到在说后面那句话的时候，女生的面部表情非常的细腻，尤其是看向镜头的那个眼神、挑眉和说话时候的点头动作，太真实了，这种面部细节我从离开没有在其他模型上见到过。

本来我没抱啥希望的，但是跑完这个测试我就发现不对，这玩意好像有点强，而且这些细微表情你是不太好在提示词里面写的，只能靠模型自己的智能。

然后来个我们常见的顺口溜来看看嘴型和语音的表现。

清晰口型，节奏均匀：“八百标兵奔北坡，炮兵并排北边跑。”（说完轻呼一口气）

这里可以看到语音和整个面部的配合是非常好的，同时手部动作也在摇晃他的扇子，让整个画面不至于太单调。

后面个叹气的处理太好了，再一次体现了这个模型在表演层面已经有了一些泛化的智能，我并没有说叹气的表情，他自己就能推导出来这是表演完了比较轻松的一个状态，所以就表现出来了。

然后来一下看一下环境音和语音的配合。

边说边轻微抬手：“听到杯沿的轻碰声了吗？”（然后轻触杯子，出现细微杯碰声）（停顿）“就像在现场一样。”

这里我故意指定了杯子的声音，以及说话的顺序，他也按照这个顺序表现了出来。

可以看到人物的表情依然非常细腻，而且在说到“就像在现场一样”的时候有惊叹和自豪的表情，这完全是模型自己处理的。

但有个问题是 GAGA-1 是专门为了表演和语音训练的模型，如果可以的话尽量避免复杂精细的手部运动，比如这里手部就有些问题。

从上面的几个测试看，基础的表演和模型智能已经相当好了，然后再试试他多语言的能力。

这块还得指望中国模型，毕竟海外的模型一般不会对中文进行强化。

要不就是用了一些台湾人或者中文不标准的人的语音资料导致听起来和看起来都很别扭 Sora2 有时候就有一些，Veo3 就别说了。GAGA-1 在中文完美的基础上，其他语言的表现也很顶。

提示词：

英语：Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日语：自然礼貌语气“こんにちは。大事な発表です。落ち着いて、聞いてください。”（轻点头）

西班牙语：温暖自信语气“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合：淡定语气：“结论很简单——we’re ready for production.”（停顿0.3秒）“就现在。”

这里我分别试了一下英语、日语、西班牙语和多语言混合的情况，可以看到每个都非常标准，而且唇形同步也都是对的，细微的表情也都非常丰富，可以说不同语言之前的表现没有啥区别，听起来和看起来都像是说母语的人的表现。

接下来就到了最重要的情绪甚至复杂情绪的表现。

羞耻与自责的表情，目光回避、压低声音说：“我作弊了。”然后下颌收紧，用发抖的声音说“对不起，我不该那样做。”

这个真的跑的太好了，我一直认为极端情绪的表现不是考验模型表演能力的关键，关键在于那些不是很极端的场景化的情绪表现。

比如刚开始躲闪的目光、以及与之配合的压低的声音，真的你让我演我真演不出来，GAGA-1 在表演上确实比我们没学过表演的强太多了。

后面收紧下颌的动作也很自然，先是稍微低了一下头，然后才彻底把头低下去，语音上也有一个由弱变强的过程。

绝望与恳求的表情，下大雨的声音，女生呢喃说到：“别走让我至少把话说完。”然后大声说：“我会改的，真的。”

这里这个场景就相对复杂了，女生是站在车外的，而且还是雨天，有车窗隔着，画面和声音的情况要考虑的都多一点。

仔细听的话该有的雨声也是有的，他很好的考虑了镜头在车里的情况，所以雨声没有那么大，而且还自己加上了非常应景的钢琴 BGM，加强了氛围的渲染。

在表情和语音配合上，可以看到刚开始小声说话的时候模型给女生加了一点发抖的情况，这也是人在有剧烈情绪的正常反应，非常形象了。同时先小声说话然后有个思考的停顿然后大声说话的时候情绪的转变也会更自然，它太懂表演了。

单人都这么猛了，我们来试试双人。

A（微笑）：“用一句话概括 GAGA-1？”B（平稳）：“声音、口型、表情，同步到位。”A（点头）：“影视级，直出可用？”B（笃定）：“当然。”

我这里加了点难度直接用的 AB 来表示左右的人，然后还用了两个侧脸。

但没想到他依然可以 Get 到提示词的要求，而且在中间的时候把应该 B 一直说的话改成了一人说一句，整个视频生动了不少。

侧脸的唇形同步和面部表情也相当不错，没有崩坏的情况，同时也没有其他模型会出现的音画不同步的情况，唯一小问题是在读 GAGA 的时候有点嘴瓢，感觉要避免大段中文加一两个英文单词的情况。

再来一个场景化的情绪丰富一点的双人测试，办公室吵架。

左边的男性愤怒的说：“预算是谁改的？”右边女性心虚的说：“我……是我，但我别无选择。”左边男性用凌厉的眼神看着短促吸气说：“你有。”

这里的整个情绪非常剧烈，同时模型自己也为了配合情绪加大了人物的动作，知道在质问的时候需要看着对方，同时需要有剧烈的动作，可以看到即使是在非常极限的人脸角度下，面部表情和嘴型也堵维持住了。

这里我还给男性和女性分别指定了情绪和表情，男性是非常强烈的愤怒，女性是相对比较细微的心虚，两者都表现的不错，尤其是最后那个短促吸气说话的感觉，相当到位。

由于时间跟对话有时候不匹配，可能会有一小段时间不动，这个用的时候剪掉就行。

好了这就是这次 GAGA-1 模型测试的主要内容了，这是一个长板很长同时短板很短的模型，Sand AI 在训练的时候目标就非常的明确，就是把语音和表演表现拉满，他们也确实做到了。

我探索下来，这个模型的几个使用要点有：

a.提示词上可以先说情绪变化，然后再说说话的语气和内容，如果需要停顿的话，可以直接写，也可以用波折号或者省略号表达。b.双人的表现不错，用左右或者男女去指定说话的人他都能理解，甚至 A、B 都行，但是超过双人的表现会有一定的下降，优先用双人。c.如果图生的话尽量不要有太多的肢体或者全身漏在外面，也需要少些复杂动作提示词，可能会崩。d.如果字数少的话比如十个字以内可以选择 5 秒的生成时长，如果是长对话可以选 10秒。e.目前只支持 16:9 的横屏比例，过段时间会支持竖屏的 9:16 比例。

随着视频模型的发展，我们渐渐不太满足于复杂动态和物理表现、提示词遵循这种最基本的要求，因为这些 AI 视频模型可以生成的内容只占正常内容制作的一小部分。

从 GAGA-1、Sora2、Veo3 等模型我们可以发现，现在的 AI 视频模型发展已经到了下一个阶段：

我们需要更加关注情绪表达和表演、音效和语音，模型开始朝着端到端的多模态一体化输出。同时需要关注模型本身的世界知识和智能程度，不仅可以理解画面内容进行视觉推理，同时自己有编排分镜脚本和剪辑的能力。

原来很多人认为这部分需要 Agent 来完成，现在看来也被模型内化了，Agent 制作的朋友需要将模型的进步考虑的更加激进一些才行。

本来看到 Veo3 和 Sora 2 之后觉得国内的模型有点难了，但看到 GAGA-1 后发现还是有明白人的。

目前 GAGA-1 可以免费试用，感兴趣可以去试试。

如果觉得藏师傅的内容不错的话，可以帮我点个赞👍或者喜欢🩷，也可以转发✈️给你需要的朋友，感谢🙏。

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签