Matrix-Game:开源交互式世界生成模型,打造可玩游戏世界

你有没有想过,以后我们玩游戏、拍电影、搞训练都不需要开发团队一点点建场景,而是直接让 AI 一张图就搞定一个完整世界?现在这事儿听起来不再像科幻片里的桥段了,昆仑万维刚刚开源的 Matrix-Game 就是这么个“能动”的世界生成模型。
以前的生成视频模型很多时候只是画面好看,但不支持真正意义上的“玩”——就是你一动,它也动,甚至能理解规则、遵守物理、反馈动作。但 Matrix-Game 做到了,它不只是“能看”,而是真正“能玩”。
它是昆仑万维在今年 5 月开源的大模型,基于早期发布的 Matrix-Zero 发展而来,能让你用最普通的操作指令,比如按下“WASD”或者点点鼠标,就在 Minecraft 世界里实现移动、攻击、跳跃,还能一路看到景物变化,简直像真的游戏一样自然流畅。
我自己看了不少演示,印象最深的还是在“前进+攻击”组合场景里,角色穿过树林,攻击会打掉挡路的方块,池塘、山体、树木之间的遮挡关系也全都处理得很真实。这不是那种“假装交互”,而是真正理解了你在干什么。
而且啊,这模型对动作细节的还原也挺精细的,比如你往左走再往前跳,它能准确把你从水中带上岸,甚至还会随着动作自动补全环境视角的变化,这就不是简单的视频叠图那么简单了。
更神的是,它还能脱离 Minecraft 的风格去做泛化,生成城市、古建等各种环境。你给它一张图,它就能脑补出一整个“可动”的世界,还能让你进去“走一圈”,是不是有点像现实中的创造模式?
当然啦,昆仑万维不仅是做个演示这么简单。他们还整了一套专门的评测体系,叫 GameWorld Score,针对交互视频生成这类模型,从视觉质量、时间一致性、交互可控性、物理规则理解这四个维度来全面评估结果。就连微软的 MineWorld 和 Oasis 那些同类模型,和 Matrix-Game 一比也都落了下风。
不过你要问我,它为什么能这么强?那还真不是拍脑袋搞出来的。从数据到模型结构,Matrix-Game 是一步步打磨出来的。比如他们专门构建了一个叫 Matrix-Game-MC 的数据集,里面包含了大约 870 小时的高质量 Minecraft 视频,还有通过虚幻引擎模拟的人工交互场景,动作、位置、视角、反馈都有,完整得不得了。
模型架构方面也有料。它不是那种靠语言提示的,而是纯视觉驱动,你给一张图,它就能建出一个你能玩的世界。里面还用了多模态的 Diffusion Transformer 架构,控制响应也特别灵敏,就算你是连续动作、细微转角,也能精确地模拟出来。不夸张地说,这玩意儿已经非常接近“世界建模的交互标准答案”了。
更厉害的是,Matrix-Game 不只是为了游戏,它更像是一个未来空间智能的地基。比如你可以拿来训练具身智能体、自动化建模影视场景、生成 XR 内容,甚至还能跟他们家的其他模型联动起来,比如天工大模型搞 NPC 对话,Mureka 生成音效,SkyReels 搞剧情渲染,整一个全链路 AI 创作系统,感觉谁要是搞内容生产,这一整套直接就能下场了。
我个人觉得,这事儿的意义还真不只是技术有多厉害,更关键的是它让我们离“让 AI 主动建世界”这个目标真的近了一大步。以前我们看图生文,现在直接是一图生世界,还能玩、能动、能互动。这个空间智能的未来,说不定真就藏在这些世界模型里了。
最后嘛,Matrix-Game 给我的感觉就是两个字:真香。它不光证明了中国也能搞出全球领先的交互式世界生成模型,还从根上改变了 AI 看待世界的方式。你不需要给它文字解释、不需要复杂设定,一张图,一点操作,它就能给你构建出真实又动态的世界。这不就是 AI 开始真正懂“空间”的第一步吗?期待它接下来在科研、内容、游戏等领域的更多玩法。