Meta研发VFusion3D大模型,实现AI生成式3D内容创作飞跃
查看引用/信息源请点击:venturebeat
模型可以在几秒钟内从单个图像生成3D asset
(映维网Nweon 2024年08月12日)Meta和牛津大学的研究人员开发了一种强大的人工智能模型,它能够从单个图像或文本描述中生成高质量的3D对象。
所述系统名为VFusion3D,是向可扩展3D人工智能迈出的重要一步,可以改变VR、游戏和数字设计等领域。
研究团队旨在解决人工智能领域长期存在的挑战:与大量在线2D图像和文本相比,3D训练数据十分稀缺。他们的新方法利用预训练的视频人工智能模型来生成合成3D数据,从而能够训练更强大的3D生成系统。
研究人员解释道:“开发基础3D生成模型的主要障碍是3D数据的有限可用性。”
为了克服这个问题,他们对现有的视频人工智能模型进行了微调,以产生多视角视频序列,本质上是教会它从多个角度想象物体。然后,使用合成数据来训练VFusion3D。
结果令人印象深刻。在测试中,与之前最先进的系统相比,人类评估者在90%以上的时间里更喜欢VFusion3D的3D重建。模型可以在几秒钟内从单个图像生成3D asset。
最令人兴奋的可能是这种方法的可伸缩性。随着更强大人工智能模型的开发,以及更多可用于微调的3D数据,研究人员预计VFusion3D的能力将继续快速提高。
这一突破最终可能会加速依赖3D内容的行业创新,包括游戏和VR/AR等。
当然,尽管它具有令人印象深刻的能力,但这项技术并非没有限制。研究人员指出,系统有时会在处理车辆和文本等特定对象类型时遇到困难。
相关代码请访问GitHub。