英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

单GPU即可生成分钟级720p视频世界模型

映维网Nweon 2026年05月27日英伟达研究团队日前推出了一个名为SANA-WM的开源世界模型。它可以根据一张初始图像和一条六自由度camera轨迹,生成长达一分钟、分辨率为720p的交互式内容,并可在单块GPU完成推理。

英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型

世界模型通常用于模拟真实环境或虚拟场景,支持交互式内容生成。但现有开源方案往往需要大量训练数据、多块GPU同时运行,门槛较高。SANA-WM在设计中着重降低了数据、训练和推理成本。

据介绍,SANA-WM参数量为26亿,训练仅使用了约21.3万个公开视频片段,在64块H100 GPU用时15天。推理时,标准版本可在单块H100运行,蒸馏后加上NVFP4量化,可在单块RTX 5090用34秒生成一段60秒的720p视频。

在技术架构方面,SANA-WM采用了混合线性注意力机制,结合门控DeltaNet与softmax注意力,以控制长序列建模的内存占用。camera控制方面,使用了双分支设计,分别处理全局轨迹和细粒度运动,以保持对六自由度camera姿态的精确跟随。另外,模型包含一个两阶段生成流程,第一阶段生成基础视频,第二阶段通过精炼器提升画质和一致性。

研究人员自建了一分钟世界模型评估基准,包含80个初始场景和简单、困难两组camera轨迹。对比结果显示,SANA-WM在动作跟随精度上优于现有的开源基线,视觉质量与参数规模更大的工业级模型接近,而生成吞吐量最高可达对比模型的36倍。

在AR/VR应用方面,SANA-WM可用于快速生成沉浸式环境、扩展现实场景或进行环闭一致的长镜头内容创作。由于其支持六自由度camera控制,能够匹配头戴设备的视角变化需求。不过,当前版本仍偏向离线生成,尚不支持实时交互。

项目代码、模型权重及评估基准已开源。更多信息请访问项目官网

本文链接https://news.nweon.com/140588
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群

您可能还喜欢...

资讯