雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

西北大学提出基于物理的文本到3D高斯飞溅运动生成框架

查看引用/信息源请点击:映维网Nweon

文生3D

映维网Nweon 2025年05月05日)文生3D是虚拟现实和数字内容创作中的一项价值技术。然而,用低效提示生成高保真3D对象并准确地模拟其物理运动依然是未解决的挑战。针对这个问题,美国西北大学团队提出了一个创新的框架,利用大型语言模型改进提示和扩散先验引导的高斯飞溅来生成具有精确外观和几何结构的3D模型。

团队同时结合了基于连续介质力学的变形图和颜色正则化,为生成的三维高斯合成生动的物理基础运动,坚持质量和动量守恒。

通过将文本到3D生成与基于物理的运动合成相结合,框架渲染出具有物理感知运动的逼真3D对象,准确反映对象在不同材质的各种力和约束下的行为。大量的实验表明,所述方法实现了高质量的运动。

文本到3D建模在创建高度逼真的3D表示方面取得了显著成就。已有研究在使用文本-图像先验生成精细3D对象方面取得了非常大的进展。另外,其他研究在产生给定3D对象的运动方面同样取得了进展。

尽管取得了进步,但目前的方法在从低效文本提示合成逼真的3D对象并准确模拟运动方面存在挑战。3DGS由于其出色的精细细节渲染能力、基于点的表示和快速的渲染速度而成为神经渲染领域的一项突出技术。

有人利用3DGS从文本提示生成逼真的3D模型。例如,GSGEN将3DGS与扩散先验集成在一起,产生具有高度逼真结构和视觉保真度的3D对象。PhysGaussian则利用描述材质行为的物理模型来指导3DGS模拟物体运动。它们为文本到3D生成和3D到运动模拟的集成奠定了坚实的基础。

然而,现有的文本到3D框架往往以文本到2D图像生成模型为指导,文本理解能力有限。这一限制可能会导致在给出糟糕文本提示时出现令人不满意的3D生成。

为了克服上述挑战,美国西北大学团队提出了一个全新的框架,借助基于LLM的提示改进,使文本到3D的物理运动生成成为可能。

为了实现这一点,他们使用LLM来优化输入文本提示。然后,采用三维高斯函数作为三维对象表示,利用三维(形状)扩散优先和二维(图像)扩散优先,引导3DGS生成几何形状合理、外观逼真的逼真三维模型。

另外,研究人员通过使用基于连续介质力学的变形映射来变形高斯核,在生成的三维高斯模拟物理运动。同时,团队引入了一种颜色正则化技术,以确保渲染对象保持准确和一致的颜色。因此,框架生成了高质量的3D对象,展示了基于物理的运动。

当然,所提出的框架目前不支持渲染3D对象表面与光的交互,所以它不能产生反射或阴影等效果。另外,框架只支持有限材质类型的运动模拟。所以,未来的研究可以探索整合先进的照明技术,扩大材质类型的范围,以增强框架的多功能性和真实感。

相关论文Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation

总的来说,团队提出了一个基于物理的文本到3D运动生成的创新框架,促进了具有逼真,物理感知运动的高质量3D对象创建,有效地将生成建模与物理驱动的运动仿真相结合。

框架集成了四个创新组件:

  • LLM提示细化,确保提示准确的3D生成;

  • 扩散先验指导,将生成过程导向具有精确形状和高质量视觉外观的结果;

  • 基于连续介质力学的变形映射,以模拟生成的3D对象的真实物理交互和变形;

  • 颜色正则化,实现一致和准确的显色。

这个统一的管道集成了自然语言处理、生成建模和物理模拟,重新定义了3D内容创作的界限,为虚拟现实/增强现实等变革性应用铺平了道路。

本文链接https://news.nweon.com/129521
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯