原创 技术Z先生 2025-08-14 22:24 广东
腾讯最新开源图生游戏视频
* 戳上方蓝字“AI资讯互联”关注我
大家好,我是技术Z先生,一名热爱分享的AI程序员!
基于 HunyuanVideo 底模的高动态、可交互游戏视频生成框架。简单理解:一套“游戏视频生成器”。
操作方式也很直接:只需输入一张图 + 一段文字描述 + 动作指令(键盘方向键),它就可以实时生成高清动态画面。
视角和玩法都不挑:既能做第一人称的跑酷推进,也能做第三人称的跟随探险,而且镜头运动流畅,观感接近真正在游戏里游走。
单动作场景不再“死板”:比如风车村的画面里,风车真的转、云层也在飘,场景活了起来。
多动作组合没压力:转镜头的同时还能走动,像在阳光灿烂的地中海庭院里边环视边前进,连贯自然。
历史一致性强:镜头移开再回来,雪地里的中世纪城堡还是原样,不“变形”、“穿帮”。
第三人称也稳:夜路上跟拍一辆黑色跑车,车灯扫过路面,节奏感和空间感都在。
动作生硬、场景僵硬:传统生成模型常常像“机器人走位”,转身和平移不能同时做,运动范围小;靠静态3D重建的方案,风车不转、云不飘,改完场景它也不会动。
长期一致性差:镜头一折返,原先的物体位置可能变了;生成长视频更容易“忘记”历史帧,连贯性掉链子。
成本太高:走传统工艺要团队手工建模、灯光、渲染,时间、算力、人力全都贵。
流畅自由的动作表达:统一连续动作空间,角度/速度可细粒度控制,能“边跑边转视角”;还能直接生成动态元素(主角/NPC、雨雪水流、云层等)。
记忆更强:混合历史条件,让长视频里的角色和环境稳定不乱跳,减少时间轴上的断点。
成本下探到个人可玩:不必手建模和渲染;结合阶段一致性蒸馏(Phased Consistency Model, PCM)与 DeepCache,压缩推理步数;13B 模型量化后,消费级显卡 RTX 4090 就能跑,无需高端服务器。对比一些闭源游戏生成方案,它的泛化能力更强。
游戏原型从“几周”缩到“几小时”:先用一张概念图加几句描述,把剧情走一遍、镜头走一遍,再决定哪些部分值得投入重建。
个人创作者能做“3A感”的短片:街头随手拍一张,配上“赛博朋克雨夜巷口”的描述,按方向键推进,一段沉浸式“异世界探险”就出片了。
设计师演示更直观:原画不再只是一张静帧,可以秒变动态场景给客户/团队看,气氛、动线、光影一目了然。
文本描述越具体,画面生成越靠谱。比如别只写“城堡”,补充“雪夜、窗户透出暖光、石墙有风化痕迹”,模型在生成时会更好地“记住”这些细节。
动作别一下子跳转的太大。在生成长视频时,先慢速转镜再推进,可以让得到的视频画面更稳定;需要快速运动时,可先用分镜式生成,再拼接这些分镜画面。
选图有讲究:需要对比关系清晰、主体层次分明的照片,这样更容易出“电影感”的画面。
如果想要风格化的视频,就需要把风格词写清楚,如“油画笔触”“Mediterranean”“noir”等,这类标签对模型挺友好。
游戏开发者:做玩法验证、关卡预演、剧情分镜,减少早期建模和渲染的投入。
视频创作者:一张照片生成沉浸式短片,不必会3D软件也能玩出空间镜头。
3D 设计师:原画快速变动态 demo,帮助交流创意和节奏感。
项目官网:https://hunyuan-gamecraft.github.io/
代码仓库:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
技术报告(arXiv):https://arxiv.org/abs/2506.17201
Hugging Face 模型页:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0
