Google ECCV2020 可应用于AR/VR的论文汇总
谷歌在计算机视觉领域的研究
(映维网 2020年08月31日)欧洲计算机视觉国际会议(ECCV)是计算机视觉三大顶级会议之一,每两年举办一次,其目的是促进计算机视觉研究的发展,并加强工业界、学术界的交流。对于今年的大会,来自世界各地的计算机视觉研究者和工程师都会在这里分享最新的进展。
谷歌同样不例外。日前,这家公司公布介绍了在ECCV 2020展示的一系列研究论文。下面映维网整理了部分或可应用于虚拟现实和增强现实领域的论文及其摘要。谷歌人工智能团队的完整论文收录请访问这个页面。
1. Quaternion Equivariant Capsule Networks for 3D Point Clouds
我们提出了一个用于处理三维旋转和平移相同,并且对输入点的排列不变的点云的三维胶囊模块。所述算子接收由输入点云计算的稀疏局部参考帧集,并通过一种新的四元数动态路由过程建立端到端的变换等方差。另外,我们从理论上将胶囊间的动态路由与著名的Weiszfeld算法相连接。根据我们的算子,我们建立了一个将几何体和姿势分离开来的胶囊网络,从而为更多的信息描述符和结构化的latent space铺平了道路。我们的架构允许联合对象分类和方向估计,无需显式监督旋转。我们在常见的基准数据集上进行了实验验证。
相关论文:Quaternion Equivariant Capsule Networks for 3D Point Clouds
2. SoftpoolNet: Shape Descriptor for Point Cloud Completion and Classification
点云通常是许多应用程序的默认选择,因为它们比体三维数据具有更大的灵活性和效率。然而,它们的无组织性(点以无序的方式存储)使得它们不太适合通过深度学习管道进行处理。本片论文提出了一种基于点云的三维对象完成与分类方法。我们引入了一种新的方法来组织基于激活的特征,而我们称之为soft pooling。在解码阶段,我们提出区域卷积,这是一种以最大化全局激活熵为目标的算子。另外,受Point Completion Network(PCN)局部细化过程的启发,我们同时提出了一种用于模拟点云反褶积操作的patch-deforming 操作。这篇论文证明,我们的区域激活可以与AtlasNet和PCN等许多点云架构相结合,从而获得更好的几何完成性能。我们在不同的三维任务上评估了我们的方法,如对象完成和分类,而结果均达到了最先进的准确性。
相关论文:SoftpoolNet: Shape Descriptor for Point Cloud Completion and Classification
3. Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction
以深度学习近似表示的隐式函数对于重建三维曲面非常有效。但是,它们只能生成不可控的静态曲面,这使得通过编辑其姿态或形状参数来修改生成模型的能力有限。然而,在为计算机图形学和计算机视觉建立灵活的模型时,这些特性必不可少。在这项研究中,我们提出了一种结合了细节丰富的隐式函数和参数化表示的方法,而它即使在衣服存在的情况下也能保持人体三维模型重建的可控性和精确性。在给定稀疏三维点云采样的情况下,利用隐式局部网络(IP-Net)联合预测穿着者的外三维表面,内表面,以及参数化人体模型的语义对应关系。随后,我们使用对应关系将身体模型拟合到我们的内表面,然后将其非刚性变形到外表面,从而捕捉服装、面部和头发的细节。在对全身数据和手部扫描的定量和定性实验中,我们所提出的方法十分有用,即使在单视点深度图像中采集到不完整的点云时也有效。
相关论文:Combining Implicit Function Learning and Parametric Models for 3D Human Reconstruction
4. CoReNet: Coherent 3D scene reconstruction from a single RGB image
利用深度学习技术的进步,最近的研究已经能够在一幅RBG图像作为输入的情况下重建单个对象的形状。基于这项任务的常见编解码器架构,我们提出了三个扩展:(1)以物理正确的方式将本地2D信息传播到输出的3D体积的光线追踪跳跃连接,;(2)能够构建平移等变模型,同时编码精细对象细节而不占用过多内存空间的混合3D体积表示;(3)为捕捉整体对象几何的构建损失。此外,我们将模型调整成解决更困难的任务重建。我们在一个过程中联合重建所有的对象,并产生一个连贯的重建。我们在实验中验证了我们的贡献对ShapeNet合成数据和Pix3D真实图像的影响,我们的方法在这两个数据集上都优于最先进的单目标方法。最后,我们定量地评估了基于ShapeNet对象的合成场景的多目标重建性能。
相关论文:CoReNet: Coherent 3D scene reconstruction from a single RGB image
5. PointMixup: Augmentation for Point Clouds
本篇论文介绍了用实例间插值法对点云进行数据增强的方法。插值数据增强是图像领域中一种简单有效的方法。然而,这样的混合不能直接转移到点云,因为我们在两个不同对象的点之间没有一对一的对应关系。本篇论文将点云间的数据增强定义为最短路径线性插值。为此,我们引入了PointMixup。这种插值方法通过两个点云之间的路径函数优化分配来生成新的示例。我们证明了我们的PointMixup能够在两个点云之间找到最短路径,并且插值属于赋值不变的和线性的。PointMixup允许在点云域引入基于插值的强正则化器。在实验中,我们展示了PointMixup在点云分类中的潜力,特别是在缺乏实例的情况下,我们同时展示了PointMixup在增强应对噪点和点的几何变换方面的鲁棒性。
6. Learning to Factorize and Relight a City
我们提出了一个基于学习的框架,它能够将室外场景分解为随时间变化的光照和永久的场景因素。为了便于训练,我们从谷歌街景收集了一个城市规模的户外延时图像数据集,在那里,相同的地点会随着时间的推移被反复捕捉。这些数据代表了前所未有的时空室外图像规模。我们表明,我们经过学习的分离因子能够以逼真的方式操纵图像,如改变照明效果和场景几何。
7. Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve
目标识别在图像领域取得了重大进展,但主要集中在二维感知方面。我们提出利用现有的大型3D模型数据集来理解对象的3D结构,具体方式是构建基于CAD的对象及其姿态的表示。我们提出的Mask2CAD能够联合检测真实世界图像中的对象,并针对每个检测到的对象,对最相似的CAD模型及其姿态进行优化。我们在与对象相对应的图像检测区域和三维CAD模型之间建立一个联合嵌入空间,从而实现对输入RGB图像的CAD模型检索。这将生成图像中对象的轻量级表示。这种基于CAD的表示确保了内容创建或交互场景等应用程序能够实现有效、高效的形状表示,并朝着理解真实世界图像到合成域的转换迈出了一步。在Pix3D的真实图像上的实验表明,我们的方法比现有技术具有优势。
相关论文:Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve
8. Beyond Controlled Environments: 3D Camera Re-Localization in Changing Indoor Scenes
长时间camera重定位是计算机视觉和机器人技术应用中的一个重要课题。尽管存在各种各样以照明、天气和季节变化为目标的室外基准,但研究领域对室内的关注要少得多。这导致了关注静态场景的流行室内基准与许多实际应用感兴趣的室内环境不匹配。在这篇论文中,我们采用3RScan来创建一个针对室内场景的长时间camera重定位基准RIO10。我们提出了评估camera重定位的新指标,并探讨了最先进的camera重定位是如何根据这些指标来执行。根据在给定RGB-D帧中检测这种变化的新方法,我们同时详细研究了不同类型的场景变化是如何影响不同方法的性能。我们的结果清楚地表明,长时间室内再定位是一个尚未解决的问题。
相关论文:Beyond Controlled Environments: 3D Camera Re-Localization in Changing Indoor Scenes
9. SimPose: Effectively Learning DensePose and Surface Normal of People from Simulated Data
我们报告了一种简单而有效的方法来学习困难的每像素2.5D和3D回归表示。对于2.5D DensePose估计任务和3D人体表面法线估计任务,我们获得了很强的模拟实数域泛化能力。在多人DensePose MSCOCO基准测试中,我们的方法优于在真实图像上训练的最新方法。这是一个重要的结果,因为在真实图像上获取人体固有uv坐标非常耗时,而且容易产生标记噪点。另外,我们在MSCOCO数据集上展示了模型的3D表面法线预测。所述方法的关键是通过从混合领域样本中精心选择训练批次,深度批次归一化残差网络和修改的多任务学习目标来减轻“Interdomain Covariate Shif(域间协变量偏移)”。我们的方法是对现有的域自适应技术的补充,并可以应用于其他密集单像素位姿估计问题。
相关论文:SimPose: Effectively Learning DensePose and Surface Normal of People from Simulated Data
10. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
我们提出的方法主要是使用稀疏输入视图集来优化底层连续体三维场景函数,从而获得合成复杂场景新视图的最新结果。我们的算法使用一个完全连接(非卷积)的深度网络来表示场景。其中,输入是一个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),输出则是该空间位置的体积密度和视景相关辐射。我们通过查询沿camera光线的5D坐标来合成视图,并使用经典的体三维绘制技术将输出的颜色和密度投影到图像中。我们描述了如何有效地优化神经辐射场,以渲染具有复杂几何和外观的真实感场景新视图,并展示了优于先前神经渲染和视图合成的结果。
相关论文:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis