英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

单GPU即可生成分钟级720p视频世界模型

映维网Nweon 2026年05月27日英伟达研究团队日前推出了一个名为SANA-WM的开源世界模型。它可以根据一张初始图像和一条六自由度camera轨迹,生成长达一分钟、分辨率为720p的交互式内容,并可在单块GPU完成推理。

英伟达发布SANA-WM:单GPU即可生成分钟级720p视频世界模型

世界模型通常用于模拟真实环境或虚拟场景,支持交互式内容生成。但现有开源方案往往需要大量训练数据、多块GPU同时运行,门槛较高。SANA-WM在设计中着重降低了数据、训练和推理成本。

据介绍,SANA-WM参数量为26亿,训练仅使用了约21.3万个公开视频片段,在64块H100 GPU用时15天。推理时,标准版本可在单块H100运行,蒸馏后加上NVFP4量化,可在单块RTX 5090用34秒生成一段60秒的720p视频。

在技术架构方面,SANA-WM采用了混合线性注意力机制,结合门控DeltaNet与softmax注意力,以控制长序列建模的内存占用。camera控制方面,使用了双分支设计,分别处理全局轨迹和细粒度运动,以保持对六自由度camera姿态的精确跟随。另外,模型包含一个两阶段生成流程,第一阶段生成基础视频,第二阶段通过精炼器提升画质和一致性。

研究人员自建了一分钟世界模型评估基准,包含80个初始场景和简单、困难两组camera轨迹。对比结果显示,SANA-WM在动作跟随精度上优于现有的开源基线,视觉质量与参数规模更大的工业级模型接近,而生成吞吐量最高可达对比模型的36倍。

......(全文 592 字,剩余 117 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/140588
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群

您可能还喜欢...

资讯