GAGA-1：国产AI音画同步视频模型人物表演达影视级

原创数字生命卡兹克 2025-10-10 09:31 北京

人物表演和台词能力有点无敌

Sora2爆火之后，随之而来的AI视频领域的新产品。

来自我的好朋友，曹越老师的Sand.ai。

凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

就是这个模型名，不知道为什么总让我想起了一个非常古老的综艺，叫《认真的嘎嘎们》。。。

多说无益，直接给大家看我自己跑的效果吧。

翻了下聊天记录，没想到我跟曹越老师第一次交流会在4月，那时候也是他第一次给我发他用自己的视频模型做的小玩意，那时候还不叫GAGA-1，跑出来的视频也有点糊有点抖。

没想到6个月过去，他们的模型正式版，终于端出来了。

坦诚的讲，这个速度比我和他当时预期的都要慢，那天晚上我们电话聊到凌晨1点多，大家都客观的估计，可能只再要2个月？

没想到，时间眨眼而过，6个月的时间。

中间的艰辛和困难，可能只有曹越老师自己清楚了。

话说回到GAGA-1上，目前已经正式上线，没有邀请码，目无需排队，目前免费用，上线即玩。

曹越老师真的是个实在人。。。

网址在此：http://gaga.art

你可以看到三个功能，Gaga Actor，Gaga Avatar，Library。

Gaga Avatar是他们的老模型，可以不用管，只看第一个功能，Gaga Actor。

这里面搭载的，就是他们的最新音画同步视频模型，GAGA-1。

这个模型最大的特点，就是人物表演，带台词的表演。

这个表演，从我自己的角度看，是绝对达到了影视级别的。

我很少会用达到影视级别这种词语来描述视频模型，但是在单纯的人物表演这块，我是真的觉得，GAGA-1达到了影视级。

当然影视里也分级别，短剧和影游级，GAGA-1绝大多数都没有问题；电视剧级，部分可以达到，至于电影级，那个要求还是太高了，再说吧，还是差了一些神韵。

模型目前可调的参数几乎没有，固定死了16:9，可变的只有5s和10s。

这里可以给大家一个我自己的小经验，台词字数在5个字左右的时候，可以用5s的时长去做，如果多余5个字，建议就直接上10s了，尽量不要超过20个字的台词，念起来我个人会觉得有一些奇怪。

并且GAGA-1必须使用图+文一起的方式，传一个角色+一段Prompt，你就可以生成了。

角色你可以直接用他们自己的画图功能跑。

这里里面接的是Banana。

不过Banana改图可以，他自己直出的图片审美，特别是亚洲人像的，我确实没有那么喜欢，我自己还是比较喜欢用Seedream 4.0，也就是豆包和即梦的图片4.0。

所以我还是用我的这个AI模特染夏来举个例子。

先来个简单的，我大概写了个Prompt：

“女孩笑着说：‘你不会真的以为，我是那种一哭就输的女孩？’。”

然后直接点击运行，大概3~4分钟之后，一个10s的视频就出现了。

我们来看看效果。

这个视频没有roll，就是单纯的一次直出，头发上的风，还有神情，还有牙齿，都是我目前见过非常棒的了，如果不是有Sora2在，GAGA-1的表演真实度，可能就是我现在心中的第一名。

这个案例是笑着说，我不改模特，再给大家看一下其他的Prompt生成的效果，这样对比应该会更直观一些。

我又给出了第二条Prompt：

“女孩叹了口气，低头咬了咬嘴唇，片刻后抬起头，声音坚定的说：‘我决定了，从今天起，我们谁都不欠谁了’。”

这次的Prompt会比第一个更复杂了一点，加入了叹气还有部分的表演动作，还有情绪。

这次，我roll了两次，我本来想取一个放出来的，结果两条效果都不错，我觉得都可以放出来给大家看一下。

第一个表演中，人物的叹气，更带有一些失望、失落、伤感，最后给出的话语，是无可奈何、是只能接受。

而第二个表演，是有一丝气愤、有一些恨铁不成钢的表演情绪在，是我对你很失望，所以，我们以后再也互不相欠。

两种表演，我觉得都没问题，要真说不足的话，就是我觉的台词的功底，目前相较于人物的表演层次，还是差了一些，台词念的太平，比不上表演的情绪。

这个Prompt我又大概roll了7、8次，台词能力基本就在这了，并没有特别大的变动。

第三条Prompt，我又测试了一下停顿、还有具体的情绪变化。

给出的Prompt是这样的。

“女孩哭泣着说：‘你，真的不爱我了吗？’，停顿了一会，她情绪激动歇斯底里的喊到：‘我明白了！我不会再来找你了！’”

这次我直接一次性点到了并发的5条最大上限，这次的成功率，是40%，有两条是我觉得还不错的。

两个表演的歇斯里地的程度不太一样，稍微有些差别，而且第一条，是完全自己给我配了BGM。

不过第一条其实你已经可以发现一些问题的了，就是当Prompt过长的时候，会出现吞字的情况，最后一个字可能没表演完视频就结束了。

另外3条失败的，因为每篇文章最多只能放10个视频，我就不传上来占用额度了，但是失败的原因基本上无外乎就是念错了字、大幅表演的时候稍微有点变形，以及台词几乎无感情。

我又玩了一些其他的case。

比如试着用动作复杂的半身像，既然是GAGA-1，怎么能少了这个Gaga：

“女人保持着原来的姿势，只有表情变化，她非常骄傲地说：‘有没有可能，这个名字是因为......’她停顿一下，强调：‘我。’”

它能识别出是一个外国人并且使用蹩脚普通话，我觉得这点还是值得赞扬的。

说实话我从一开始并不清楚什么是骄傲地说，随手一敲的事，但表演出来确实是骄傲从容的那种感觉。

如果图片上有两个人，两个人的神态和语音表现也都还行：

“男人无奈地看着女人：‘你到底让不让我说啊？’女人点点头，俏皮地回答：‘你说。’”

不知道你们有没有看过这个电影（《天若有情》），无比经典，十分推荐。

哦对了，这个模型，其实也是能唱歌的，就是这个唱的歌，在音调上稍微有些抽象。。。

比如让柯洁来唱一下最近很火的《技能五子棋》，自从看了这个节目，最近一闭眼脑子里全是这个奇怪的调。

“男人看着棋盘，唱歌：‘传统的五子棋，就是把五个子连成一条线，好无趣~好无聊~’”

顺便恭喜柯洁三连冠卫冕棋圣。。。

我想，从这些case中，你已经能看到GAGA-1大概的能力了。

不过，模型的弊端也比较明显，对于一些大幅度、复杂的运动支持的不是很好，我试图让画面中出现擦眼泪的手，但是这个手会变形。

同时，现在的台词，英文和中文支持的不错，日文比较的诡异，其他的语言倒是也支持，就是我实在是听不出来了。

还有一个比较不太好进入工作流的点，就是现在没有办法自己上传音频，或者是固定角色的音色ID，导致每一次生成视频的音色都有点不太一样，这个Veo3一直没有解决，而Sora2是用的上传的角色视频作为cameo的方式去解决的。

这个我问了曹越老师，他说他们已经快做完了，就是单纯的赶不上这次发布，就没上了，我说我现在能先体验吗，他说你再等等，只是模型能力可以，但是我们工程啥都没做。。。

最后，聊一下GAGA-1的价格，这个必然是逃不过的环节，比较再好的模型，贵上天际也很难普及。

目前，GAGA-1是全员免费，不要钱。

我问曹越老师，你准备免费到啥时候，他回了我一句：

还没想好，不知道。。。

但是他说，价格这块，肯定会比Sora2和Veo3低很多很多。。。

行，那就趁现在，多用用吧。

无论是你想做的短剧、互动影游里NPC的对话、或者是给小说角色配上一段可视化的表演，它都能给你带来一些不小的惊喜。

当然，它现阶段还有很多不完善的地方，但最重要的，是它提供了一个全新的、低成本的可能性，让更多人能参与到视频内容的创作中来。

而且，是国产的模型。

大家自己去探索和发现吧，希望能看到大家非常整活有有趣的作品。

玩的开心～

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@virxact.com

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签