Matrix-Game：开源交互式世界生成模型，打造可玩游戏世界

你有没有想过，以后我们玩游戏、拍电影、搞训练都不需要开发团队一点点建场景，而是直接让 AI 一张图就搞定一个完整世界？现在这事儿听起来不再像科幻片里的桥段了，昆仑万维刚刚开源的 Matrix-Game 就是这么个“能动”的世界生成模型。

github_ai_tool_matrix_game_1

以前的生成视频模型很多时候只是画面好看，但不支持真正意义上的“玩”——就是你一动，它也动，甚至能理解规则、遵守物理、反馈动作。但 Matrix-Game 做到了，它不只是“能看”，而是真正“能玩”。

它是昆仑万维在今年 5 月开源的大模型，基于早期发布的 Matrix-Zero 发展而来，能让你用最普通的操作指令，比如按下“WASD”或者点点鼠标，就在 Minecraft 世界里实现移动、攻击、跳跃，还能一路看到景物变化，简直像真的游戏一样自然流畅。

我自己看了不少演示，印象最深的还是在“前进+攻击”组合场景里，角色穿过树林，攻击会打掉挡路的方块，池塘、山体、树木之间的遮挡关系也全都处理得很真实。这不是那种“假装交互”，而是真正理解了你在干什么。

而且啊，这模型对动作细节的还原也挺精细的，比如你往左走再往前跳，它能准确把你从水中带上岸，甚至还会随着动作自动补全环境视角的变化，这就不是简单的视频叠图那么简单了。

更神的是，它还能脱离 Minecraft 的风格去做泛化，生成城市、古建等各种环境。你给它一张图，它就能脑补出一整个“可动”的世界，还能让你进去“走一圈”，是不是有点像现实中的创造模式？

当然啦，昆仑万维不仅是做个演示这么简单。他们还整了一套专门的评测体系，叫 GameWorld Score，针对交互视频生成这类模型，从视觉质量、时间一致性、交互可控性、物理规则理解这四个维度来全面评估结果。就连微软的 MineWorld 和 Oasis 那些同类模型，和 Matrix-Game 一比也都落了下风。

不过你要问我，它为什么能这么强？那还真不是拍脑袋搞出来的。从数据到模型结构，Matrix-Game 是一步步打磨出来的。比如他们专门构建了一个叫 Matrix-Game-MC 的数据集，里面包含了大约 870 小时的高质量 Minecraft 视频，还有通过虚幻引擎模拟的人工交互场景，动作、位置、视角、反馈都有，完整得不得了。

模型架构方面也有料。它不是那种靠语言提示的，而是纯视觉驱动，你给一张图，它就能建出一个你能玩的世界。里面还用了多模态的 Diffusion Transformer 架构，控制响应也特别灵敏，就算你是连续动作、细微转角，也能精确地模拟出来。不夸张地说，这玩意儿已经非常接近“世界建模的交互标准答案”了。

更厉害的是，Matrix-Game 不只是为了游戏，它更像是一个未来空间智能的地基。比如你可以拿来训练具身智能体、自动化建模影视场景、生成 XR 内容，甚至还能跟他们家的其他模型联动起来，比如天工大模型搞 NPC 对话，Mureka 生成音效，SkyReels 搞剧情渲染，整一个全链路 AI 创作系统，感觉谁要是搞内容生产，这一整套直接就能下场了。

我个人觉得，这事儿的意义还真不只是技术有多厉害，更关键的是它让我们离“让 AI 主动建世界”这个目标真的近了一大步。以前我们看图生文，现在直接是一图生世界，还能玩、能动、能互动。这个空间智能的未来，说不定真就藏在这些世界模型里了。

最后嘛，Matrix-Game 给我的感觉就是两个字：真香。它不光证明了中国也能搞出全球领先的交互式世界生成模型，还从根上改变了 AI 看待世界的方式。你不需要给它文字解释、不需要复杂设定，一张图，一点操作，它就能给你构建出真实又动态的世界。这不就是 AI 开始真正懂“空间”的第一步吗？期待它接下来在科研、内容、游戏等领域的更多玩法。