雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

中科大与Hidream团队提出文本驱动的零样本立体视频生成系统T-SVG

查看引用/信息源请点击:映维网Nweon

文生立体视频

映维网Nweon 2025年05月05日)立体视频的出现开辟了多媒体的新视野,特别是在XR应用中。尽管XR越来越受欢迎,但由于产生立体视差所涉及的技术复杂性,制作立体视频依然具有挑战性。

为了解决相关问题,中国科学技术大学和Hidream团队介绍了文本驱动的立体视频生成系统T-SVG。这种创新的、跨模型的、zero shot的方法通过使用文本提示来创建参考视频,从而简化了视频生成。

团队指出,视频转换成三维点云序列,从两个视差细微的角度进行渲染,从而达到自然的立体效果。T-SVG通过在文本到视频的生成、深度估计和视频绘制中集成最先进的、无需训练的技术,代表了立体内容创建方面的重大进步。

其灵活的架构确保了高效率和用户友好性,无需重新训练即可无缝更新模型。通过简化生产流程,T-SVG使更广泛的受众能够访问立体视频生成,展示了其在XR领域的革命性潜力。

立体视频在虚拟现实和增强现实等各种应用中获得了显著的普及,尤其是随着Apple Vision Pro和Meta Quest等设备的出现,增加了用户对立体内容的兴趣。

然而,立体视频的制作依然面临着阻碍其广泛采用的重大挑战。人工智能生成内容的最新进展已经改变了媒体创作的许多方面,特别是在文本到视频生成模型方面。然而,生成立体视频的技术并没有充分利用相关创新。

制作立体内容提出了独特的挑战,特别是在产生立体视差时,这涉及到从两个角度观看对象的位置差异。与更容易获得的2D视频生成过程不同,创建立体视频通常需要详细的3D模型或专门的立体记录设备。

传统方法带来了巨大的障碍,并使领域对非专业人员具有挑战性。中国科学技术大学和Hidream团队认为,利用现有模型,而不是针对特定问题训练新的模型,可以以更高的计算效率获得类似的结果。

他们介绍了文本驱动的立体视频生成系统T-SVG。这是一种创新的、跨模型的zero shot方法,可优化立体视频生成过程。

通过利用文本到视频生成、深度估计和视频绘制中的先进方法,T-SVG可以自动创建立体图像对,并以最小的计算开销确保高质量的输出。系统简化了制作流程,使立体视频生成更容易获得更广泛的受众。

为了实现这一点,T-SVG从文本提示开始生成参考视频,然后对其进行处理以计算深度图。深度图转换成RGBD图像并建模为3D点云。

模仿人类双目视觉,点云渲染成一对具有立体视差的视频,从而产生引人注目的立体视觉效果。

在实验中,团队使用四个常用指标,包括峰值信噪比、SSIM、LPIPS和FVD来定量评估生成视频的质量。相关指标共同评估了保真度、感知相似性和动作一致性,提供了生成内容和真实视频特征之间一致性的综合衡量标准。

结果清楚地表明,所提出的方法在所有指标方面都表现出色。

团队指出,T-SVG通过在文本到视频生成、深度估计和视频绘制中集成最先进的、无需训练的技术,代表了在创建立体内容方面的重大进步。

系统的灵活和模块化架构确保了高效率和用户友好性,同时允许与新模型无缝更新,无需再训练。这使得T-SVG高度适应未来的发展,为不断发展的应用程序提供了巨大的潜力。

相关论文T-SVG: Text-Driven Stereoscopic Video Generation

总的来说,文生立体视频T-SVG技术标志着立体视频创作的重大进步。通过使用文本作为主要输入,T-SVG简化了过程,并使更广泛的受众可以访问它,包括在3D内容创建方面专业知识有限的人。集成了文本到视频生成、深度估计和视频绘制等前沿方法,团队优化了生产流程,提高了效率。

重要的是,T-SVG的跨模型的特性允许随着技术的进步轻松替换改进的模型。这种灵活性不仅提高了最终结果,而且强调了系统持续改进的潜力。最终,T-SVG可以为虚拟体验中的创新应用开辟新的途径,改变立体内容的制作和体验方式。

本文链接https://news.nweon.com/129515
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯