佐治亚理工学院研发边缘GPU高斯混合单元提升AR/VR渲染性能

查看引用/信息源请点击:映维网Nweon

一个边缘GPU插件模块

映维网Nweon 2025年07月11日)快速发展的增强现实和虚拟现实要求在资源受限的平台进行实时、逼真的渲染。3D高斯飞溅在渲染效率和质量方面提供了最先进的(SOTA)性能,并已成为广泛的AR/VR应用中有前途的解决方案之一。然而,尽管它在高端GPU表现出色,但在边缘系统却举步维艰,每秒帧数仅为7-17帧,远低于真正沉浸式AR/VR体验所需的60帧以上标准。

为了解决这一挑战,佐治亚理工学院团队对基于高斯的AR/VR应用进行了全面分析,并确定了高斯混合阶段(集中计算每个高斯在每个像素的贡献)作为主要瓶颈。为此,他们提出了一个高斯混合单元(GBU),一个边缘GPU插件模块,以用于AR/VR应用的实时渲染。

值得注意的是,这个GBU可以无缝集成到传统的边缘GPU中,并协同支持广泛的AR/VR应用。具体来说,GBU结合了行内顺序着色(IRSS)数据流,利用两步坐标变换,从左到右依次遮蔽每一行像素。当直接部署在GPU时,所提出的数据流在真实的静态场景中实现了1.72倍的加速(但依然缺乏实时渲染性能)。

考虑到基于GPU的实现中有限的计算利用率,GBU使用专用的渲染引擎来提高渲染速度,通过聚合来自多个高斯的计算来平衡跨行工作负载。跨代表性AR/VR应用的实验表明,GBU在保持SOTA渲染质量的同时,为设备的实时渲染提供了一个解决方案。

在大量行业兴趣和投资的推动下,增强现实和虚拟现实正在迅速扩张。与头显一样,边缘AR/VR平台致力于在虚拟会议、旅游和试用等各种应用中提供沉浸式和交互式体验。相关应用需要实时、逼真地渲染由静态和动态对象组成的场景,以及具有复杂姿势和表情的人物化身。

因此,开发一个通用的渲染管道至关重要,以准确地重建各种现实世界的场景,并在边缘AR/VR设备高效地执行。在图形和计算机视觉社区,3D高斯飞溅已经成为AR/VR中非常有前途的3D场景表示。它实现了跨各种对象和场景的SOTA重建性能,并且在3D重建之外的AR/VR任务中表现出色,包括3D资产创建,场景编辑和开放词汇查询等等。

与之前的神经辐射场(NeRF)等表示相比,3D高斯表示具有更好的平衡性和更快的重建速度,并显著提高了渲染帧率,如图1所示。这使得3D高斯飞溅成为资源受限型AR/VR平台中的3D应用程序的绝佳选择(其中边缘GPU是主要渲染硬件)。

尽管3D高斯函数在服务器和桌面设备具有实时渲染的潜力,但在边缘设备的实时渲染(即≥60 FPS[54])依然存在显著的性能差距。例如,在Jetson Orin NX(英伟达的边缘GPU)渲染来自MipNeRF-360数据集的真实场景时,FPS只能达到7到17帧。这一差距阻碍了利用最新3D重建技术的新兴AR/VR应用的采用。

为了弥补这一差距,佐治亚理工学院对多个基于高斯的3D渲染管道进行了全面的分析,目标是高斯混合阶段(集中计算每个高斯在每个像素的贡献),因为它一直是主要的延迟瓶颈,占渲染时间的48%到78%。这一阶段需要密集的逐像素处理,涉及多个矩阵向量乘法,并成为整体延迟的瓶颈。

为此,他们开发了高斯混合单元(GBU),这是一个为边缘GPU设计的硬件模块,可以使用3D高斯图像进行实时渲染,增强AR/VR应用。所述单元与现有边缘GPU顺利集成,加速常见的渲染瓶颈,以提高跨各种应用程序的性能,其设计确保兼容性和可扩展性

为了理解基于高斯的渲染管道的典型加速瓶颈,研究人员分析了AR/VR平台流行的基于高斯的重建算法。其中包括用于重建静态场景的3D Gaussian Splatting,用于动态场景重建的4D Gaussian Splatting,以及用于人类化身动画的Splatting Avatar。团队的分析是使用实际数据集进行。

数据集的详细统计信息在Tab 1中列出。他们在边缘GPU设备Jetson Orin NX 16GB运行算法,并使用Nisight Systems进行内核级渲染时间分解。对于总体分析结果,他们将总体运行时间和相应的渲染时间分解为图4和图5所示的三个渲染阶段。分析包含3种不同类型的12个真实世界场景:6个静态场景,3个动态场景和3个人类化身。

团队观察到:

  • 在边缘GPU,三种场景都没有达到实时渲染性能。这主要是由于渲染步骤中的延迟瓶颈。例如,在现实世界的静态场景中,这一步占整体渲染时间的70%到78%;

  • 在动态场景和可动画角色的渲染中,尽管由于建模运动和变形的预处理步骤更加复杂,渲染步骤的比例有所增加,但渲染步骤依然是主要的瓶颈,在动态场景中占62% ~ 65%,在人物角色动画中占48% ~ 51%;

  • 渲染步骤,包括排序过程,同时消耗了所有三种类型场景的渲染时间的相当部分,从14%到24%不等。

至于与独立加速器的比较,团队将提议的GBU与独立的3D高斯和神经辐射场(NeRF)加速器进行基准测试。需要注意的是,GBU和独立加速器不能直接进行比较,因为后者提供端到端加速,但通常只专注于一种类型的场景(例如静态场景)。

相比之下,GBU只加速一个渲染步骤,并与各种AR/VR应用程序兼容。为了公平比较,他们创建了GBU的独立版本,称为GBU- standalone,并专门用于静态场景渲染。GBU- standalone是通过将GBU与专用硬件模块集成在一起构建。模块的实现遵循GS-Core的剔除/转换/排序单元的设计。

在相同的目标渲染速度下,以及Tanks&Temples数据集和Deep Blending数据集,GBU-Standalone显示出优越的面积和能源效率。另外,由于先进的3D高斯渲染算法,GBU实现了最高的渲染质量,同时在渲染速度,面积效率和能耗方面优于先前的NeRF加速器,进一步验证了所提出技术的有效性。

尽管GBU在三个广泛使用的数据集中表现出强大的性能,但它可能在特定极端条件下面临挑战。例如,当camera离场景很远时,高斯分布可能会覆盖更少的像素,从而减少计算共享。例如在静态场景数据集中,将camera到场景的距离增加4倍,可以将GBU在普通GPU的加速从原来的10.8倍降低到4.7倍。所以,未来的研究可以通过自适应地合并基于camera距离的高斯函数来解决这个问题。

另外,GBU主要加速渲染步骤,但在高度动态的场景中,其他渲染步骤可能会主导计算。例如,多角色设置可能需要在渲染步骤中进行大量的处理来建模人体,从而限制了GBU的整体加速。针对这个问题,一个专门用于渲染步骤的加速器可以在这种情况下提高效率。

相关论文Gaussian Blending Unit: An Edge GPU Plug-in for Real-Time Gaussian-Based Rendering in AR/VR

https://arxiv.org/pdf/2503.23625

总的来说,由于与基于SOTA高斯的渲染管道相关的大量计算需求,在边缘设备实现实时渲染速度依然是一个重大挑战。在这项研究中,佐治亚理工学院团队开发了GBU,一个专门为边缘系统设计的硬件模块。

所提出方法包括对AR/VR应用程序中的渲染管道进行全面分析,以确定性能瓶颈。其次,他们开发了一个专门的数据流,降低了计算成本。然后,研究人员共同设计了一个专用的硬件模块,以无缝集成到现有的GPU架构中,从而提高数据的局部性,并利用高斯重用缓存来优化渲染过程。

对各种AR/VR应用的广泛评估表明,GBU不仅解决了主要的延迟瓶颈,而且在保持SOTA渲染质量的同时支持广泛的应用。结果证实了硬件软件协同设计方法在弥合边缘设备性能差距方面的有效性,为更具沉浸感和响应性的AR/VR体验铺平了道路。

本文链接https://news.nweon.com/130955
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯