Meta研究优化AR/VR环境的物品对象视觉可视化查找

编辑：刘余欣 | 分类：论文 | 2023年5月15日

加入映维网会员

例如通过指向真实世界定位的3D箭头来找到他们的物品

（映维网Nweon 2023年05月15日）可视化查询本地化的任务可以描述为“我最后一次看到X是什么时候”的问题，其中X是由visual crop表示的对象查询。在Ego4D设置中，这个任务旨在从“情景记忆”中检索对象，并由VR头显或AR眼镜等设备支持。

这种功能的实际应用是通过预先注册的对象中心图像来定位用户的项目。一个功能强大的视觉查询定位系统将允许用户通过短暂的回放或通过指向真实世界定位的3D箭头来找到他们的物品。

问题的当前解决方案依赖于所谓的Siam-detector。Siam-detector模型设计允许通过独立地将查询与所有对象建议进行比较来合并查询示例。在对给定视频进行推理期间，视觉查询是固定的，检测器在自中心视频记录中的所有帧运行。

尽管现有的方法在查询对象检测性能方面提供了富有希望的结果，但它依然存在domain和task bias，尤其是当查询对象不在视线范围内时。当前模型对每个对象proposal的独立评分加剧了所述问题，因为基线模型学会对表面相似的对象给予高分，而忽略其他proposal来重新评估分数。

......（全文 2848 字，剩余 2446 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限