英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型
单GPU即可生成分钟级720p视频世界模型
(映维网Nweon 2026年05月27日)英伟达研究团队日前推出了一个名为SANA-WM的开源世界模型。它可以根据一张初始图像和一条六自由度camera轨迹,生成长达一分钟、分辨率为720p的交互式内容,并可在单块GPU完成推理。

世界模型通常用于模拟真实环境或虚拟场景,支持交互式内容生成。但现有开源方案往往需要大量训练数据、多块GPU同时运行,门槛较高。SANA-WM在设计中着重降低了数据、训练和推理成本。
据介绍,SANA-WM参数量为26亿,训练仅使用了约21.3万个公开视频片段,在64块H100 GPU用时15天。推理时,标准版本可在单块H100运行,蒸馏后加上NVFP4量化,可在单块RTX 5090用34秒生成一段60秒的720p视频。
在技术架构方面,SANA-WM采用了混合线性注意力机制,结合门控DeltaNet与softmax注意力,以控制长序列建模的内存占用。camera控制方面,使用了双分支设计,分别处理全局轨迹和细粒度运动,以保持对六自由度camera姿态的精确跟随。另外,模型包含一个两阶段生成流程,第一阶段生成基础视频,第二阶段通过精炼器提升画质和一致性。
研究人员自建了一分钟世界模型评估基准,包含80个初始场景和简单、困难两组camera轨迹。对比结果显示,SANA-WM在动作跟随精度上优于现有的开源基线,视觉质量与参数规模更大的工业级模型接近,而生成吞吐量最高可达对比模型的36倍。
......(全文 592 字,剩余 117 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

