index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
Gaga AI是一款由Sand.AI推出的创新视频生成工具,能够在一分钟内创建包含声音、表情、情绪甚至背景音的视频。该工具专注于对话场景,能将一张静态人物照片和一段文字在短短三分钟内转化为生动逼真的音画同步内容。与Sora等通用视频生成模型不同,Gaga AI专精于人物胸部以上的对话演绎,通过精细的口型、音色、表情和情绪匹配,实现高度自然的表现力。其低成本优势和即将开放的API,预示着在数字人、虚拟主播、在线教育等对话场景领域具有广阔的应用前景。目前,Gaga AI已全面开放,用户可免费体验。
✨ Gaga AI 是一款由 Sand.AI 推出的新型视频生成工具,能在一分钟内生成包含声音、表情、情绪和背景音的视频。它允许用户上传一张人物照片,输入一段台词,即可在三分钟内获得音画同步的视频,无需后期配音。
🦆 Gaga AI 专注于人物对话场景的演绎,特别是在胸部以上的部分,其口型、音色、表情和情绪的匹配度非常高,远超传统TTS加口型同步的粗糙效果,呈现出更为自然和逼真的表演。这得益于其背后团队在计算机视觉领域的深厚积累。
💰 相较于 Sora 等通用视频生成模型,Gaga AI 在成本上具有显著优势,其成本不到 Sora 的 1/20。该团队计划后续开放API,并预计价格将比 Sora 和 Veo 便宜一个数量级,这使其在数字人、虚拟主播、在线教育等需要高频对话内容的领域具有强大的市场竞争力。
🚀 Gaga AI 的背后团队 Sand.AI(中文可称为「三呆」)由清华特奖、微软亚研院背景的曹越和张拯联合创立,他们也是 Swin Transformer 的作者,在计算机视觉领域享有盛誉。团队曾于今年4月开源了首个高质量自回归视频模型 Magi-1。
原创 金色传说大聪明 2025-10-10 05:04 北京
自掏1万5,有奖挑战:
评论区,画个可爱gaga 🦆🦆

↑来自 gaga 首页这不是真人,是 AI 生成的
一张照片,一段台词,3 分钟出片
声音、表情、情绪,乃至背景音,全都有
产品叫 Gaga,凌晨上线,无需邀请码
地址是 http://gaga.art

背后是 Sand.ai,曹越他们,很好的朋友
上个月就做好了,比 Sora2 还早一点
然后,我特喜欢 gaga 这名字
gaga,听着就很北京:烤鸭
🦆🦆🦆🦆🦆
所以,我发起个 有奖挑战
给 gaga 画个吉祥物:可爱的鸭子
点赞前五,每人 1000 块的红包如果成了官方吉祥物,额外再发1万
// 发在本文评论区就行,别刷点赞// 该活动与 gaga 无关,纯粹我个人行为
// 活动截止:2025年10月20日 23:59测了一下
比如,让奥特曼给我的酒吧(AGI Bar/知识蒸馏)打个广告(外国人的口音,学的很像)
背景是嘈杂的酒吧背景音,“欢迎来到知识蒸馏,这里是泡沫最大的酒吧,未来的各种模型,都会这里发布”
比如,让族长教大家如何减肥(味真足!)
更多例子
而下面这些例子,都来自官方首页,非常有趣
比如在多人场景里,各种戏剧冲突都很完美,根本看不出来是 AI
“双姐,有公司拉我当主播,我已经答应了”
“什么?”
“其实,我一点都不怕”
当你需要对影视内容,进行二创,或者 Remix 时...hhhhh
"Sora2我知道。玩法还是很有意思的。不过效果不如Gaga好。"
更抽象的内容,也不在话下,并且表现的非常出色
“About all my painting, the most important thing is..”
背后的团队
GaGa 的背后团队,是 Sand.AI
几十号人,办公室北京五道口
创始人曹越,清华特奖,微软亚研院,智源研究院
联合创始人张拯,跟曹越都是 Swin Transformer 的作者(据说除了两个联创,还有个一作,现在也在 Sand.ai),Swin 就无需赘述了,ICCV 的 Bestpaper
这些,在整个计算机视觉领域,都是响当当的

↑他们的办公室,最左侧的打酒机是我送的↑他们的办公室,人被我P成了鸭子,嘎嘎
今年 4 月的时候,他们发了 Magi-1
首个高质量自回归视频模型,开了新赛道
Magi 这模型还开源了
61 页技术报告、推理代码、训练代码、模型权重全给
在当时,我也给报道了:Magi-1 开源&刷屏:首个高质量自回归视频模型,它的一切信息

顺道说一下...
Sand.AI 的中文...可以叫「三呆」
曹越他们,都是老朋友
三呆办公室的打酒机,是我送的
我扛过去的...好重上个月,我去三呆玩
他们说做了个新产品,让我看看
之后就看到了当时的 Gaga AI
↑当时的效果对话场景做得特别精细
口型、音色、表情、情绪的配合
比市面上的都自然
不是那种机械的 TTS 配上简单的口型同步
而是真的在演,声音会随着人物形象变化,表情会跟着情绪走
↑也是当时的效果问他们什么时候发布,说国庆后
等到了 9 月 30,Sora 2 发了
↑当时我对曹越的表情,belike同样是音画同步,视频生成,全网刷屏
时间点撞上了,而且Sora 2是OpenAI的大动作
不过吧,Sora 的这个发布
也让 Gaga 充满了更大的想象
OpenAI 要押重注的东西,是要有国产版的

Sora 2是通用场景,大而全
运动、自然、动作、对话,什么都能生
Gaga 专精对话场景
胸部以上的对话演绎
gaga 的首页上..然后因为这样,成本有了优势
只有 Sora、Veo 成本的不到 1/20
后续 API 也会开放
会比 Sora、Veo 都会便宜一个数量级
↑Sora2 的价格,还是规定饿在当下的 AI 产业消费中
对话,是视频里最高频的场景之一
数字人、虚拟主播、在线教育...各种场景
大橘子的火星电波/ListenHub,也是这个方向

在这些领域,对话质量的要求很高
常规做法就是图片+TTS+改嘴形
匹配度,表情的细腻度,情绪的自然转换都很不精细
老实说,在这块 Sora 也很不稳定,Bad Case 很多,很烧 token
(最近不给放 Sora 了,不然我高低贴一堆视频)
为了 sora 的一个 case,我抽卡了几十组
如果想试试
官网是gaga.art,全面放开了
划个重点:限时免费,无需邀请码

上传一张清晰的正面照,写实人物效果最好
输入台词,建议 10 秒内能说完的话
等 3 分钟,音画同出,不用后期配音
以及...
别忘了参加我的 gaga 挑战赛
下面这个是我画的:三根呆毛的鸭子
毕竟...sand ai,就是三呆

嘎嘎~
阅读原文
跳转微信打开