告别渲染瓶颈,苹果LGTM有望大幅提升Vision Pro图形性能
有望大幅提升Vision Pro图形性能
(映维网Nweon 2026年04月04日)苹果和香港大学共同开发了一个能够高效实现高分辨率3D场景渲染的新框架,而所述技术有望大幅提升Apple Vision Pro的图形性能。

重建复杂场景并渲染高保真新视图是计算机视觉与图形学领域的一项核心挑战。应对这一挑战的系统需具备两大能力:
一是高效的前馈重建能力,以便模型能够即时重建新场景而无需额外的逐场景优化;
二是高分辨率渲染能力,以捕获精细细节并确保视觉保真度。
苹果指出,上述能力对于增强现实和虚拟现实这种对实时性与视觉质量要求苛刻的应用至关重要,会直接影响沉浸式用户体验。
然而,高分辨率前馈重建依然困难重重。现有的前馈3DGS方法仅以百像素级分辨率运行。高斯数量随图像尺寸呈平方增长,例如从512分辨率扩展到4K分辨率需要64倍的高斯数量。对于高分辨率,网络预测与高斯渲染的计算成本将高得难以承受。
另外,标准3DGS将外观与几何信息耦合在每个基元之内,即便是在几何形状简单的表面之上,都需要大量高斯才能表示纹理丰富的区域。尽管业界已提出减少基元数量的纹理高斯方法,但它们依然需要逐场景优化,无法以前馈方式泛化到不同场景。
为解决上述挑战,团队提出了 LGTM。这是一种预测纹理高斯的前馈网络,可用于高分辨率新视图合成。方案的核心思想是,通过双网络架构解耦几何参数与逐基元纹理的预测。
苹果指出,LGTM克服了以往前馈3DGS方法在分辨率可扩展性方面的局限,同时解决了现有纹理高斯技术需要逐场景优化的问题。

在双网络架构中,基元网络处理低分辨率输入以预测一组紧凑的几何基元,而纹理网络则处理高分辨率输入以预测精细的逐基元纹理图。纹理网络通过图像分块和投影映射提取高分辨率特征,并将其与来自基元网络的几何特征相融合。
团队采用分阶段训练策略:首先预训练基元网络以建立稳固的几何基础,然后与纹理网络联合训练,从而用高频细节丰富外观表现。
结果是,这个框架可以生成细致的4K场景,但没有计算量的二次方爆炸。
对于拥有超高分辨率的Apple Vision Pro而言,前馈式3DGS的表现不佳。尽管显示屏可以处理高分辨率,但快速、准确地生成场景成为了计算瓶颈。
相关论文:Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
然而,LGTM有望帮助Apple Vision Pro解决这一问题,在需要前馈式3DDS的场景下提供更流畅的性能和更清晰的视觉效果。

