Facebook研究为AR/VR开发能推理回答视觉信息问题的智能系统

编辑：广东客 | 分类：论文 | 2021年11月1日

开发能够推理和回答视觉信息问题的智能系统

（映维网 2021年11月01日）视觉问答研究（VQA）旨在开发能够推理和回答视觉信息问题的智能系统。为了研究这一问题，早期的数据集重点关注图像作为视觉输入。最近，业界提出了众多QA基准，以将视觉信息从图像扩展到视频领域。尽管图像QA基准问题需要一个系统来学习跨模态交互，但视频QA基准问题并不局限于捕获具有时间变化的视觉信息。作为VQA问题的正交延伸，另一个研究方向是在对话环境中研究图像/视频VQA。

在这个问题中，关于给定视频或图像的问题定位在多轮对话中。在每个对话轮中，一个问题通常与先前对话轮中的其他问题表现出不同类型的交叉轮关系，例如对象共同引用和主题对齐。在名为《DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue》的研究中，Facebook和新加坡管理大学的团队研究了多轮视觉问答。

相关论文：DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue

在构建智能多模式系统方面，业界针对多轮视觉问答提出的多种方法表现出了卓越的性能。然而，大多数都呈现边际性能增益，而我们理解其局限性的能力受限于任务的复杂性。现有的基准设计没有足够的信息来确定当前的方法是否能够进行复杂的推理，而这已经成为视觉语言系统中的一个常见问题。

为了解决现有基准的局限性并更有效地分析对话系统，团队提出了一个相应数据集DVD。

团队在图1中演示了DVD中的对话示例。

Facebook研究为AR/VR开发能推理回答视觉信息问题的智能系统

对于DVD这个研究课题，团队一共引入了17个新的功能模块以用于视频和对话输入组件。如上图所示，系统会根据视频询问和回答一系列的问题。Q1：在立方体旋转结束之前，最大的家伙会执行什么类型的动作？A1:飞行；Q2：在同一时间段内，有多少个滑动对象？A2:2个；Q3：其中有一个球，它在视频中执行了什么类型的动作？A3：没执行任何动作；Q4：现在呢？A4：滑动……

在每个对话回合中，DVD问题测试对话系统，从而对视频执行不同类型的推理，如动作识别和时空推理。在每个回合中，系统通过合并不同类型的语义关系来生成相互关联的问题，包括：（1）时间关系：这需要系统学习在不同的时间段之间定位视频的不同时间段；（2）对象引用：需要系统解析整个对话历史中提到的短引用（代词）或长引用（例如，“前面提到的大对象”）；和（3）主题转移：需要系统维护最后一个问题回合的内存，以解决当前回合中的问题。

......（全文 1717 字，剩余 895 字）

wx_mp