谷歌研究:仅用头显完成全身动捕、环境光照恢复与可重光照化身渲染
仅用头显完成全身动捕、环境光照恢复与可重光照化身渲染
(映维网Nweon 2026年06月02日)德国马普信息学研究所和谷歌等机构的研究人员开发了一套名为EgoRelight的系统。它针对头戴式显示器头显设计,并利用了设备原有的朝下立体摄像头和朝前摄像头,以同时完成:
从朝下摄像头估计用户的全身动作与稠密深度图,并驱动基于网格的化身几何;
根据目标光照渲染出与视角相关的镜面反光和漫反射阴影,生成可重光照的逼真化身;
通过朝前摄像头扫描环境,经过逆向渲染和颜色校准,恢复出HDR环境贴图,使化身的着色与真实环境一致。
换句话说,这个设备可以在同一框架内支持自中心全身动捕、逼真人体重光照以及环境光照恢复,且仅依赖一个头显,无需外部摄像头或复杂演播室设备。

EgoRelight针对特定人物预先训练。研究团队在光舞台内采集了被试的数据,每人包括:手眼标定序列、平光照明训练序列、交错自然HDR照明训练序列,以及用于测试的新光照序列。光舞台配有331个可单独控制的RGB光源和40台4K HDR摄像机。
在训练阶段,系统学习从骨骼运动到网格几何的映射,并利用立体深度图作为条件信号,提高正面身体的几何精度。外观模型则分别学习漫反射光传输和镜面光传输,最终使用3DGS在UV空间渲染出最终图像。
研究人员在测试序列将EgoRelight与多个基线进行了比较,包括Relighting4D、MeshAvatar、EgoAvatar,以及EgoAvatar加Neural Gaffer的组合。使用的指标包括PSNR、SSIM、LPIPS和FID。
定量结果显示,EgoRelight在所有受试者上均取得最高的PSNR、最低的LPIPS和最低的FID,SSIM在四分之三的被试中排名第一。例如在被试1,PSNR达到34.81 dB,SSIM92.46,LPIPS 0.0856,FID 31.90,显著优于对比方法。
定性比较显示,EgoRelight能保留高频细节(如衣服皱纹、面部特征),同时在极端光照下仍能产生阴影和高光较为准确的结果。而没有使用交叉注意力机制或缺少漫反射/镜面子模块的消融版本会出现丢失高光、颜色偏差或无法收敛等问题。
在几何重建方面,EgoRelight的深度条件化动画网格在全身和自中心可见表面上的点到表面距离分别为1.23 cm和1.12 cm,优于仅运动驱动的DDC(1.27/1.24)和无深度条件的版本(1.29/1.24),运行速度约为46 FPS。
在姿态估计上,使用数据增强和手部逆向运动学后,全身平均每关节位置误差(MP-JPE)降至4.11 cm,手部误差降至4.71 cm,相较未使用数据增强(12.20/14.55)和未使用手部IK(5.38/6.43)均有明显改善。
EgoRelight同时提供了一种测试时恢复环境光照的方法:利用头显朝前摄像头拍摄360度扫描,合成LDR全景图,然后通过预训练的可重光照化身和朝下摄像头自拍帧进行逆向渲染,优化颜色校正参数,将LDR贴图转换为与训练一致的HDR贴图。对比Photoshop调和、IC‑Light等图像和谐化方法,EgoRelight能更好地保持面部细节和时序色调一致性,且避免了“将人融合到背景但不反映实际光照方向”的问题。
当然,团队指出了当前系统的局限性:尚不能实时运行(主要瓶颈在于逆向运动学求解器);头显摄像头固定曝光在过亮或过暗环境下效果受限;室外强光下被裁剪到[0,1]范围,对比度降低;面部表情和脚‑地接触仍有伪影;且需要预先在光舞台中进行特定人物的数据采集,难以普及到普通用户。
团队表示,未来可以通过更高效的IK求解器、多帧包围曝光、引入面部感知模块和物理约束,以及利用生成式先验发展通用可重光照化身来改进当前系统。

