Gaga AI：一张图一句台词，打造影视级短视频

原创有机大橘子 2025-10-11 10:10 北京

Gaga AI：一张图一段戏，轻松打造影视级短视频，无需真人出镜。

这个国庆节，真的是非常精彩。国庆刚放假，OpenAI 就突然发布了 Sora 2，毁掉了国庆假期的前三天。而国庆假期刚过，与 Sora 2 技术路线相似的国产模型 Gaga AI 突然就发布了。

上次国内追这么快还是 Seedream 4.0 追 Nano Banana 那次。我只能说国内的模型公司太卷了。

Gaga AI 最大的亮点是什么？

一张图，一段戏，动作表情声音全配好，做短视频再也不用真人出镜了。

这个产品到底是做什么的？Gaga AI 是全球首个专注于「人物对话」的影视级 AI 模型。

实际效果怎么样？看看我随手做的一个职场甄嬛传。

使用方式简单到离谱：

上传一张人物图片 + 输入一段台词 = 直接生成影视级对话视频。

不是分步骤的那种，先 TTS、再口型、再表情。而是声音、口型、表情一次性全出，完美同步，这就叫「音画同出」。

这也就是说...

做历史解说、情感电台、知识科普、段子演绎，统统不用真人出镜了。一张图就能搞定一切。

Gaga AI 的应用场景在哪里？Gaga AI 这个模型，强项是在人物对话，那只要是人物说话或者对话的场景都适合，我来举几个例子给大家演示一下。

场景一：历史解说图片：穿民国长衫的中年学者，书房背景

台词： "鲁迅先生曾说过...等等，我好像没说过这句话。但这不重要，重要的是有人需要我说过。"

语气从严肃到无奈，带点自嘲。这种情感转折，正好测试它的演技。

适合：历史科普、文化解说

鲁迅曾经说过，有些话本来不是我说的，但说的人多了，就成了我说的。

这个视频我看了好几遍，鲁迅亲自嘲讽现在的人，眼神、表情、笑声的表演，都太到位了。

场景二：情感电台图片：温柔女性，针织衫，咖啡馆靠窗，阳光洒脸上

台词： "深夜十一点，你发来的那句'在吗'，我盯着屏幕看了五分钟，最后还是回了'嗯'。"

添加忧伤的有故事感的背景音乐温柔中带着落寞，微表情要到位。说话要慢。

适合：情感故事、夜听类

这个知性女主播的表演也非常不错，演员的呼吸，表情的微妙变化，还自动加上了轻微背景音乐，气氛非常到位。

场景三：知识科普图片：年轻研究员，白大褂，科技感实验室

台词： "姐妹们，我必须告诉你们一个残酷的真相——那些号称'七天瘦十斤'的极端节食减肥法，掉的其实大部分是水分和肌肉，而不是脂肪"

语气专业但不失幽默。

适合：科技科普、知识分享

这个年轻帅气的白大褂研究员，用来科普讲知识真是太合适不过了。

场景四：段子演绎图片：电影画面，一个格格正在御花园散步，人物半身露出，遇到了皇上

台词：皇上说，今天是星期四了，格格说，是啊，v我50吧。

适合：搞笑段子、生活吐槽

Gaga AI 可以实现双人对话表演，模型根据台词，自动脑补了整个场景，特别是格格在说 v 我50的时候，还忍不住笑了出来，AI 也是懂梗的？

场景五：对话访谈图片：两人面对面，主持人 + 嘉宾，演播室背景

台词：

Host: "So what do you think is the biggest problem with AI?"

Guest paused: "Too honest. It won't say nice things for the sake of face, like humans do."

主持人："所以你认为 AI 最大的问题是什么？"嘉宾停顿："太诚实。它不会像人类一样，为了面子说些漂亮话。"

适合：访谈、辩论类

Gaga AI 背后的团队虽然是中国团队，但模型不仅支持中文，还支持英文等多种语言。

这是国外很流行的播客/访谈节目，有了Gaga AI，这类内容的短视频也可以很方便地制作，内容出海更方便了。

Gaga AI的三个核心优势1.影视级演技

不是「开心」「难过」「生气」那种表情包级别的东西。

而是复杂情感的自然过渡和转折，微表情、眼神、嘴型，细节全到位。这个真的很强。

而且可以让模型根据场景或台词自动脑补，和 Sora 2 一样是聪明的视频模型。

2.声音匹配人物

音色能和人物的视觉形象、场景自然匹配。

不是机械的 TTS，而是「声如其人」。这点太重要了，很多工具就卡在这。

3.支持双人对话

一个画面里生成两个人的互动，访谈、会议、冲突都能稳定输出。

这个功能，市面上很少有做得好的。

这个产品背后的模型是谁做的？GAGA-1 背后的团队正是我们的群友曹越老师和他的团队 Sand.ai。

之前他们开源过全球首个高质量自回归架构视频模型，被称为视频领域的 "Deepseek"。这次又低成本打造出全球顶尖的「人物表演」视频模型。

团队很坦诚地说，目前的模型也不是很完美，抽卡成功率在40%，在胸部以上的对话场景是顶尖水准，但全身动作、唱歌吃饭等场景还在优化中，同时类似 Sora 2 这样的根据人物生成视频功能也还在内测中，还不能给大家玩。

不过这些局限恰恰证明了它的定位：专注在「人物对话」这一个点上做到极致。

市面上的视频模型都在追求全能，能生成各种场景、各种动作、各种风格。

而 Gaga-1 只专注「人物对话」，但就是这一个场景，它做到了影视级。

国产 AI 的速度以前做短视频，流程繁琐：真人出镜→ 录制/拍摄 → 剪辑 → 后期配音 → 调整口型。这一套流程下来，少说几个小时。

现在用 Gaga AI：找一张图（或 AI 生成）→ 写台词 → 等 5 分钟，就这么简单。

而且关键是，产品免费，无门槛。

说回开头，OpenAI 发布 Sora 2，国内马上就有同路线的模型跟上。这个速度，真的让人惊讶。

虽然它刚把模型训完，产品方面还有非常多的功能需要补齐，但它在「人物对话」这个细分场景上，可能已经是全球最强了。

目前 Gaga AI 已经正式上线开放给所有人使用了。

如果你想用 AI 的「影帝」「影后」来演绎你的短视频，直接访问 gaga.art 免费体验吧。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签