斯里贾亚瓦德纳普拉大学提出可编辑可模拟的3D高斯飞溅变形方案
为虚拟现实等领域带来了无限的想象空间
(映维网Nweon 2025年12月18日)在计算机图形学领域,实现既有照片级真实感又能实时交互变形的3D模型,一直是研究者追求的“圣杯”之一。针对这个问题,斯里贾亚瓦德纳普拉大学团队提出了一套全新的解决方案,通过巧妙融合多项前沿AI与图形学技术,成功地将高效的渲染、直观的编辑与真实的物理模拟融为一体。

传统的3D高斯飞溅技术,其核心是将场景表示为无数个微小的、各向异性的高斯核。每个高斯核由以下参数定义:
位置(均值μ):在三维空间中的中心点。
协方差矩阵(Σ):控制其形状和方向。为了数值稳定,该矩阵被分解为旋转矩阵R和缩放矩阵S,通过公式 Σ = RS S
T R
T 计算得出。
颜色(cᵢ):由球谐函数(Spherical Harmonics)表示,使其颜色能随视角变化而变化,捕捉复杂的材质外观。
不透明度(αᵢ):控制其透明度。
在渲染时,每个高斯核通过一个可微分的栅格化器投影到2D图像平面。其协方差矩阵会经过一个由视图变换矩阵 W 和投影仿射近似的雅可比矩阵J 共同作用的复杂变换(Σ′ = JWΣW
T J
T)。最终像素颜色通过Alpha混合,按深度顺序叠加所有重叠的高斯核贡献计算得出,公式为:C = Σ_{i=1}^N T_i α_i c_i。
这套机制实现了无与伦比的渲染速度和质量,但其“软糖”式的离散表示法,使得对其进行结构化编辑和物理模拟变得异常困难——你无法直接“抓住”并“弯曲”一堆无序的“彩色沙粒”。
针对这个问题,斯里贾亚瓦德纳普拉大学团队技术通过四步构建智能变形管道。

第一步:精准的“外科手术”——对象级高斯分割与修复
研究团队没有从零开始重建,而是对已训练好的高斯飞溅场景进行“术后解剖”。他们引入了Meta的Segment Anything Model (SAM)。SAM能够根据提示或自动识别,生成像素级精确的掩码。在三维空间中,这些2D掩码被反向投影,用于“标记”属于特定物体的所有高斯核。通过此操作,复杂场景中的单个物体(如一把椅子、一个玩偶)能被精准地隔离出来,形成一个独立的高斯团。
然而,被分离的物体往往因原始拍摄中的遮挡而存在缺失。为此,团队采用了Suvorov等人提出的基于傅里叶卷积的大掩码修复模型。与传统的CNN修复不同,该技术在傅里叶域进行卷积操作,拥有更大的感受野,能更好地理解图像的全局结构,从而对大面积缺失区域进行语义上合理、纹理上连贯的填充,确保后续转换的网格是完整且水密的。
第二步:铸造“数字骨架”——基于GS2Mesh的高保真网格重建
这是将“飞溅”固化为“实体”的关键一步。团队采用了GS2Mesh 算法。这一算法的精髓在于,它并非简单地对高斯核的中心点进行三角化,而是将每个高斯核视为一个局部表面的元。
具体而言,GS2Mesh通过分析高斯核在空间中的分布密度和方向,重建出一个显式的三角形网格。这个生成的网格与原始高斯飞溅在几何上高度一致,其顶点和面片直接继承了高斯核所表达的曲面信息。由此,我们得到了一个完全可编辑、可操控的显式表面表示,为后续所有变形操作提供了坚实的拓扑基础。
第三步:注入“物理基因”——基于多模态大模型的自动化材质分配
为了令虚拟物体如同真实对象一样,系统需要知道它们的物理属性。研究团队的创新在于利用多模态大语言模型,如GPT-4V或DeepSeek-VL2,来实现这一过程的自动化。
技术流程是:系统将分割出的物体网格的多个视角渲染图,连同诸如“请识别该物体的主要材料”之类的文本提示,一同输入给大模型。大模型凭借其海量的视觉-语言联合训练知识,进行零样本视觉推理,输出如“金属”、“硬质塑料”、“柔软橡胶”或“织物”等判断。
随后,一个预设的材料属性查询表被激活。该表将语义标签映射到具体的物理参数:
密度:决定物体的质量。
杨氏模量:描述材料的刚度(越硬值越高)。
泊松比:描述材料在受压时横向膨胀的趋势(如橡胶被压缩时会向外膨胀)。
这套流程取代了繁琐的手动标注,实现了从“所见”到“所感”的自动化桥梁搭建。
第四步:驱动“真实运动”——基于XPBD的实时物理模拟
最后,团队采用了扩展位置动力学(XPBD) 作为物理引擎。XPBD是一种约束求解方法,特别适合实时、大变形模拟。其核心是迭代求解以下步骤:
预测位置:根据物体的速度和外力,预测顶点下一帧的位置。
投影求解:检测并处理碰撞约束,同时根据材料属性(如杨氏模量定义的拉伸刚度、泊松比定义的体积保持性)生成内部约束。XPBD通过高斯-赛德尔迭代法,将这些约束“投影”到顶点的预测位置上,使其满足物理规律。
更新状态:根据修正后的位置,更新顶点的最终位置和速度。
当用户交互式地拖动网格的一个顶点时,XPBD会实时解算这个扰动如何通过内部约束在整个网格中传播。一个橡胶球会表现出挤压和回弹,一块布料会自然下垂和褶皱。所有这些物理变形,都会实时驱动底层高斯飞溅核的位置与形状变化(例如,通过将网格的变形梯度应用于附着其上的高斯核),并立即通过高性能渲染管线呈现出来,最终为用户提供一个物理准确、视觉逼真、响应即时的交互体验。
相关论文:Enhancing non-Rigid 3D Model Deformations Using Mesh-based Gaussian Splatting
这项研究在打通“高保真重建”、“直观编辑”与“物理仿真”三大环节上取得了关键进展,并为虚拟现实等领域带来了无限的想象空间。


