谷歌CVPR2021:AR/VR关联性研究成果
或能用于增强现实/虚拟现实的部分论文
(映维网 2021年06月24日)2021年计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition;CVPR)正在如火如荼地进行中,并已经公布了收录的论文。
对于今年的CVPR大会,谷歌人工智能团队共有70多份论文获得了收录,并介绍了在计算机视觉的一系列研究,包括对象映射与渲染,3D人类姿态生成,语义分割和透明对象关键点估计等等。
下面映维网整理了或能应用于增强现实/虚拟现实的部分论文及相关摘要:
1. SPSG: Self-Supervised Photometric Scene Generation from RGB-D Scans
SPSG可以以自监督方式学习推断未观察到的场景几何和颜色,从而根据RGB-D扫描观察中生成高质量彩色三维场景模型。这种自监督方法用更完整的版本来关联不完整的RGB-D扫描,从而同时修复几何和颜色。值得注意的是,所述方法不依赖3D重建损失来为3D几何和颜色重建提供信息,而是建议在2D渲染操作对抗性和感知损失,以实现场景的高分辨率、高质量彩色重建。这利用了来自单个原始RGB-D帧的高分辨率、自一致性信号。所以,通过直接利用2D信号来为3D场景生成提供信息,团队提出的方法能够生成3D场景的高质量彩色重建。
相关论文:SPSG: Self-Supervised Photometric Scene Generation from RGB-D Scans
2. LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization
在这篇论文中,团队提出了一个基于视频的学习框架,其可以根据音频制作三维人脸说话效果的动画。研究人员提出了两种显著提高了数据采样效率的训练时数据归一化方法。首先,团队在一个标准化的空间中分离和表示人脸,其中所述空间将三维几何体、头部姿态和纹理解耦。这将预测问题分解为三维人脸形状和相应二维纹理atlas的回归。其次,研究人员利用面部对称性和皮肤的近似反照率恒定性来分离和去除时空光照变化。结合两者,这种归一化化允许简单的网络在新环境照明下生成高保真的唇音同步视频,同时只使用单个特定于说话人的视频进行训练。另外,为了稳定时间动态,研究人员引入了一种将模型置于先前视觉状态的自回归方法。
3. GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation
从一幅RGB图像中进行6D姿态估计是计算机视觉中的一项基本任务。目前,基于深度学习的方法主要依赖于一种间接策略:首先在图像平面和对象坐标系之间建立二维-三维的对应关系,然后应用PnP/RANSAC算法的变体。然而,这种两级管道不是端到端可训练,所以很难用于需要可微姿态的众多任务。另一方面,基于直接回归的方法目前不如基于几何的方法。在这项研究中,团队对直接方法和间接方法进行了深入的研究,并提出了一个简单而有效的Geometry-guided Direct Regression Network(GDR-Net),其能够从基于密集对应的中间几何表示中以端到端方式学习6D姿态。
相关论文:GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation
4. Neural Descent for Visual 3D Human Pose and Shape
给定一个输入RGB图像,团队提出的深度神经网络方法就能够重建人物的三维姿态和形状。团队依靠最近提出的GHUM来对其进行端到端训练,并学习在自监督情况下重建姿势和形状state。所述方法的核心是一种从学习到优化的方法:HUmanNeural Descent(HUND)。它避免了训练模型参数时的二阶微分,以及昂贵的state gradient下降,以便在测试时准确地最小化语义可微分的渲染损失。相反,团队依靠新的循环state来更新姿态和形状参数,这样不仅可以有效地减少损失,而且可以对过程进行元正则化,以确保最终的进度。HUND在训练和测试之间的对称性使得它成为第一个支持不同操作模式(包括自我监督模式)的3D人体感知架构。
5. No Shadow Left Behind: Removing Objects and their Shadows using Approximate Lighting and Geometry
从图像中删除对象是一个具有挑战性的问题。这对于众多应用而言都非常重要,比如说混合现实。为了获得可信的结果,同时应该移除对象投射的阴影。当前基于修复的方法只移除对象本身,留下阴影,或者需要指定阴影区域来修复。团队提出了一个深度学习管道来移除阴影及其施加对象。研究人员利用了粗略场景模型,并从具有各种纹理的表面移除各种各样的阴影。团队用合成渲染数据训练管道,并在合成场景和真实场景显示定性和定量结果。
相关论文:No Shadow Left Behind: Removing Objects and their Shadows using Approximate Lighting and Geometry
6. NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis
团队提出的方法以一组由无约束的已知光照照亮的场景图像作为输入,并产生了一个可以在任意光照条件下从新视点渲染的三维表示。团队的方法将场景表示成参数化为MLPs的一个连续体三维函数,其输入是一个3D位置,而输出是所述输入位置的以下场景属性:体三维密度、曲面法线、材质参数、到任何方向第一个曲面相交点的距离,以及外部环境在任何方向的可见性。总之,这允许团队能够在任意照明下呈现对象的新颖视图,包括间接照明效果。预测的可见度和曲面交集场对于模型在训练期间模拟直接和间接照明的能力至关重要。
相关论文:NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis
7. NeuralHumanFVV: Real-Time Neural Volumetric Human Performance Rendering using RGB Cameras
人体活动的4D重建和渲染是沉浸式VR/AR体验的关键,但目前的研究进展仍然无法恢复稀疏多视点RGB摄像头输入图像的精细几何和纹理效果。在这篇论文中,研究人员提出了一个实时的神经人类行为捕捉和渲染系统NeuralHumanFVV,它可以在任意新颖的视图中生成高质量的几何和真实感人类活动纹理。团队提出了一种神经几何生成方案,其包含用于实时隐式几何推理的基于分层抽样策略,以及一种新的神经混合方案,从而在新视图中生成高分辨率(如1k)和照片真实感的纹理结果。另外,团队采用神经法线混合来增强几何细节,并将神经几何和纹理绘制形成一个多任务学习框架。
相关论文:NeuralHumanFVV: Real-Time Neural Volumetric Human Performance Rendering using RGB Cameras
8. Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild with Pose Annotations
三维目标检测在机器人技术、增强现实、自动驾驶和图像检索等领域有着广泛的应用。团队提出的Objectron数据集旨在提升三维目标检测的技术水平,并促进新的研究和应用,如三维目标追踪、视图合成和改进的三维形状表示。这个数据集包含带有姿势注释的短视频。这涵盖九个类别,14819个注释视频中有400万张注释图像。团队同时提出了一个新的评价指标。
相关论文:Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild with Pose Annotations
9. Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors
人体体三维捕捉是计算机视觉和计算机图形学中一个长期存在的课题。尽管使用复杂的离线系统可以获得高质量的结果,但实时人体体三维捕获复杂场景(特别是使用轻量设置)仍然具有挑战性。本文提出了一种结合时间-体三维融合和深度隐函数的人体体三维捕获方法。为了实现高质量的时间连续重建,研究人员提出了动态滑动融合的方法来融合相邻深度观测值和拓扑一致性。另外,为了更详细和完整的曲面生成,团队提出了一种用于RGBD输入的保细节深隐函数,其不仅可以保留深度输入的几何细节,而且可以生成更合理的纹理结果。
相关论文:Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors
10. Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments
在已知的室内环境中定位camera是场景映射、机器人导航、AR等的关键组成部分。最近的进展通过优化2D/3D camera空间和3D世界空间坐标之间的2D/3D-3D对应关系来估计camera的姿态。这种映射是通过卷积神经网络或仅使用静态输入图像序列的决策树来估计,这使得所述方法容易受到动态室内环境的影响,而动态室内环境在现实世界中十分常见。为了解决上述问题,本文提出了一种新的离群值感知神经树,它将深度学习和决策树两种方法联系起来。它建立在三个重要模块之上:(a)用于构建决策树的分层空间划分;(b) 实现为一个深层分类网络以用于更好地理解三维场景的一个神经路由函数;(c)用于过滤出动态点的离群点剔除模块。
11. Spatially-Varying Outdoor Lighting Estimation from Intrinsics
神经网络SOLID-Net可以从单一的户外图像为任何二维像素位置估计空间变化的户外照明。以前的研究使用统一的天空环境映射来表示室外照明。取而代之的是,团队根据由内禀信息估计的几何信息来将天空环境映射与扭曲的图像信息相结合,从而生成空间变化的局部光照环境映射。由于没有一个室外数据集可以提供图像和局部照明ground-truth情况,团队引入包含基于物理渲染的图像及其相应的内在和照明信息的SOLID-Img数据集。团队训练了一个深度神经网络来回归具有物理约束的内在线索,并利用它们进行全局和局部光照估计。
相关论文:Spatially-Varying Outdoor Lighting Estimation from Intrinsics
12. Learning View-Disentangled Human Pose Representation by Contrastive Cross-View Mutual Information Maximization
团队介绍了一种全新的表示学习方法,其可以从二维人体姿态中分离出姿态相关和视点相关的因素。所述方法采用CV-MIM方法来训练网络,以对比学习的方式最大化同一姿势在不同视角下的互信息。团队进一步提出了两个正则化项来保证学习表示的分离性和平滑性。为了评估学习表示的能力,除了传统的全监督动作识别设置外,团队同时引入了一个名为single-shot cross-view action recognition的新任务。评估结果表明:(i)在完全监督的场景中,CV-MIM模型与最新的模型相比具有竞争力;(ii)CV-MIM在single-shot cross-view设置中比其他方法有很大的优势;(iii)在减少有监督训练数据量的情况下,学习的表征可以显著提高性能。
13. From Points to Multi-Object 3D Reconstruction
团队提出了一种从单个RGB图像中检测和重建多个三维对象的方法。其关键思想是在RGB图像中对所有目标的检测、对齐和联合形状进行优化,同时关注逼真的和物理合理的重建。为此,团队提出了一种关键点检测器,其将对象定位为中心点,并直接预测所有对象属性,包括9自由度边界框和三维形状。所有这一切都在一个向前的过程中完成。所述方法将三维形状重建描述为一个形状选择问题,即从给定的数据库中选择样本形状。碰撞损失促进了不相交的对象,进一步提高了重建的真实感。在给定RGB图像的情况下,所述方法只需一步即可实现轻量化重建,其具有实时性、完全可微性和端到端可训练性。