英伟达发布SANA-WM：单GPU即可生成分钟级720p视频世界模型

编辑：广东客 | 分类：论文 | 2026年5月27日

单GPU即可生成分钟级720p视频世界模型

（映维网Nweon 2026年05月27日）英伟达研究团队日前推出了一个名为SANA-WM的开源世界模型。它可以根据一张初始图像和一条六自由度camera轨迹，生成长达一分钟、分辨率为720p的交互式内容，并可在单块GPU完成推理。

英伟达发布SANA-WM：单GPU即可生成分钟级720p视频世界模型

世界模型通常用于模拟真实环境或虚拟场景，支持交互式内容生成。但现有开源方案往往需要大量训练数据、多块GPU同时运行，门槛较高。SANA-WM在设计中着重降低了数据、训练和推理成本。

据介绍，SANA-WM参数量为26亿，训练仅使用了约21.3万个公开视频片段，在64块H100 GPU用时15天。推理时，标准版本可在单块H100运行，蒸馏后加上NVFP4量化，可在单块RTX 5090用34秒生成一段60秒的720p视频。

在技术架构方面，SANA-WM采用了混合线性注意力机制，结合门控DeltaNet与softmax注意力，以控制长序列建模的内存占用。camera控制方面，使用了双分支设计，分别处理全局轨迹和细粒度运动，以保持对六自由度camera姿态的精确跟随。另外，模型包含一个两阶段生成流程，第一阶段生成基础视频，第二阶段通过精炼器提升画质和一致性。

研究人员自建了一分钟世界模型评估基准，包含80个初始场景和简单、困难两组camera轨迹。对比结果显示，SANA-WM在动作跟随精度上优于现有的开源基线，视觉质量与参数规模更大的工业级模型接近，而生成吞吐量最高可达对比模型的36倍。

......（全文 592 字，剩余 117 字）

wx_mp