英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型
单GPU即可生成分钟级720p视频世界模型
(映维网Nweon 2026年05月27日)英伟达研究团队日前推出了一个名为SANA-WM的开源世界模型。它可以根据一张初始图像和一条六自由度camera轨迹,生成长达一分钟、分辨率为720p的交互式内容,并可在单块GPU完成推理。

世界模型通常用于模拟真实环境或虚拟场景,支持交互式内容生成。但现有开源方案往往需要大量训练数据、多块GPU同时运行,门槛较高。SANA-WM在设计中着重降低了数据、训练和推理成本。
据介绍,SANA-WM参数量为26亿,训练仅使用了约21.3万个公开视频片段,在64块H100 GPU用时15天。推理时,标准版本可在单块H100运行,蒸馏后加上NVFP4量化,可在单块RTX 5090用34秒生成一段60秒的720p视频。
在技术架构方面,SANA-WM采用了混合线性注意力机制,结合门控DeltaNet与softmax注意力,以控制长序列建模的内存占用。camera控制方面,使用了双分支设计,分别处理全局轨迹和细粒度运动,以保持对六自由度camera姿态的精确跟随。另外,模型包含一个两阶段生成流程,第一阶段生成基础视频,第二阶段通过精炼器提升画质和一致性。
研究人员自建了一分钟世界模型评估基准,包含80个初始场景和简单、困难两组camera轨迹。对比结果显示,SANA-WM在动作跟随精度上优于现有的开源基线,视觉质量与参数规模更大的工业级模型接近,而生成吞吐量最高可达对比模型的36倍。
在AR/VR应用方面,SANA-WM可用于快速生成沉浸式环境、扩展现实场景或进行环闭一致的长镜头内容创作。由于其支持六自由度camera控制,能够匹配头戴设备的视角变化需求。不过,当前版本仍偏向离线生成,尚不支持实时交互。
项目代码、模型权重及评估基准已开源。更多信息请访问项目官网。

