雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta研发VFusion3D大模型,实现AI生成式3D内容创作飞跃

查看引用/信息源请点击:venturebeat

模型可以在几秒钟内从单个图像生成3D asset

映维网Nweon 2024年08月12日)Meta和牛津大学的研究人员开发了一种强大的人工智能模型,它能够从单个图像或文本描述中生成高质量的3D对象。

所述系统名为VFusion3D,是向可扩展3D人工智能迈出的重要一步,可以改变VR、游戏和数字设计等领域。

研究团队旨在解决人工智能领域长期存在的挑战:与大量在线2D图像和文本相比,3D训练数据十分稀缺。他们的新方法利用预训练的视频人工智能模型来生成合成3D数据,从而能够训练更强大的3D生成系统。

研究人员解释道:“开发基础3D生成模型的主要障碍是3D数据的有限可用性。”

为了克服这个问题,他们对现有的视频人工智能模型进行了微调,以产生多视角视频序列,本质上是教会它从多个角度想象物体。然后,使用合成数据来训练VFusion3D。

结果令人印象深刻。在测试中,与之前最先进的系统相比,人类评估者在90%以上的时间里更喜欢VFusion3D的3D重建。模型可以在几秒钟内从单个图像生成3D asset。

最令人兴奋的可能是这种方法的可伸缩性。随着更强大人工智能模型的开发,以及更多可用于微调的3D数据,研究人员预计VFusion3D的能力将继续快速提高。

这一突破最终可能会加速依赖3D内容的行业创新,包括游戏和VR/AR等。

当然,尽管它具有令人印象深刻的能力,但这项技术并非没有限制。研究人员指出,系统有时会在处理车辆和文本等特定对象类型时遇到困难。

相关代码请访问GitHub

本文链接https://news.nweon.com/123733
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯