清华大学提出从单图像生成360度高质量连贯视频的新方法

查看引用/信息源请点击:映维网Nweon

为虚拟现实等领域的多媒体应用铺平了道路

映维网Nweon 2024年11月29日)在一项研究中,清华大学团队提出了一种从单个图像生成360度高质量,时空连贯人类视频的新方法。所述框架结合了diffusion transformer在捕获跨视点和时间全局相关性的优势,以及CNN用于精确条件注入的优势。

解决方案的核心是一个hierarchical 4D transformer架构,它可以将自关注分解为视图、时间步长和空间维度,从而实现对4D空间的高效建模。通过将人的身份、camera参数和时间信号注入各自的transformer,可以实现精确的调节,并且克服了以前基于生成对抗网络或vanilla diffusio模型的方法的局限性

为了训练这个模型,团队收集了一个多维数据集,包括图像、视频、多视图数据和有限的4D镜头,以及量身定制的多维训练策略。大量的实验证明了所述方法能够合成360度逼真,连贯的人体运动视频,从而为虚拟现实等领域的多媒体应用铺平了道路。

......(全文 1807 字,剩余 1484 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/126102
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯