Gaga AI：三分钟生成带声音表情的视频

赛博禅心 10月10日 19:34

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Gaga AI是一款由Sand.AI推出的创新视频生成工具，能够在一分钟内创建包含声音、表情、情绪甚至背景音的视频。该工具专注于对话场景，能将一张静态人物照片和一段文字在短短三分钟内转化为生动逼真的音画同步内容。与Sora等通用视频生成模型不同，Gaga AI专精于人物胸部以上的对话演绎，通过精细的口型、音色、表情和情绪匹配，实现高度自然的表现力。其低成本优势和即将开放的API，预示着在数字人、虚拟主播、在线教育等对话场景领域具有广阔的应用前景。目前，Gaga AI已全面开放，用户可免费体验。

✨ Gaga AI 是一款由 Sand.AI 推出的新型视频生成工具，能在一分钟内生成包含声音、表情、情绪和背景音的视频。它允许用户上传一张人物照片，输入一段台词，即可在三分钟内获得音画同步的视频，无需后期配音。

🦆 Gaga AI 专注于人物对话场景的演绎，特别是在胸部以上的部分，其口型、音色、表情和情绪的匹配度非常高，远超传统TTS加口型同步的粗糙效果，呈现出更为自然和逼真的表演。这得益于其背后团队在计算机视觉领域的深厚积累。

💰 相较于 Sora 等通用视频生成模型，Gaga AI 在成本上具有显著优势，其成本不到 Sora 的 1/20。该团队计划后续开放API，并预计价格将比 Sora 和 Veo 便宜一个数量级，这使其在数字人、虚拟主播、在线教育等需要高频对话内容的领域具有强大的市场竞争力。

🚀 Gaga AI 的背后团队 Sand.AI（中文可称为「三呆」）由清华特奖、微软亚研院背景的曹越和张拯联合创立，他们也是 Swin Transformer 的作者，在计算机视觉领域享有盛誉。团队曾于今年4月开源了首个高质量自回归视频模型 Magi-1。

原创金色传说大聪明 2025-10-10 05:04 北京

自掏1万5，有奖挑战：

评论区，画个可爱gaga 🦆🦆

↑来自 gaga 首页

这不是真人，是 AI 生成的

一张照片，一段台词，3 分钟出片

声音、表情、情绪，乃至背景音，全都有

产品叫 Gaga，凌晨上线，无需邀请码

地址是 http://gaga.art

背后是 Sand.ai，曹越他们，很好的朋友

上个月就做好了，比 Sora2 还早一点

然后，我特喜欢 gaga 这名字

gaga，听着就很北京：烤鸭

🦆🦆🦆🦆🦆

所以，我发起个有奖挑战

给 gaga 画个吉祥物：可爱的鸭子

点赞前五，每人 1000 块的红包

如果成了官方吉祥物，额外再发1万

// 发在本文评论区就行，别刷点赞

// 该活动与 gaga 无关，纯粹我个人行为

// 活动截止：2025年10月20日 23:59

测了一下

比如，让奥特曼给我的酒吧（AGI Bar/知识蒸馏）打个广告（外国人的口音，学的很像）

背景是嘈杂的酒吧背景音，“欢迎来到知识蒸馏，这里是泡沫最大的酒吧，未来的各种模型，都会这里发布”

比如，让族长教大家如何减肥（味真足！)

兄弟们，减肥这一块，得的管住嘴、迈开腿！

背后的团队

GaGa 的背后团队，是 Sand.AI

几十号人，办公室北京五道口

创始人曹越，清华特奖，微软亚研院，智源研究院

联合创始人张拯，跟曹越都是 Swin Transformer 的作者（据说除了两个联创，还有个一作，现在也在 Sand.ai），Swin 就无需赘述了，ICCV 的 Bestpaper

这些，在整个计算机视觉领域，都是响当当的

测了一下

更多例子

背后的团队

如果想试试

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签