Facebook研究为AR/VR开发能推理回答视觉信息问题的智能系统
开发能够推理和回答视觉信息问题的智能系统
(映维网 2021年11月01日)视觉问答研究(VQA)旨在开发能够推理和回答视觉信息问题的智能系统。为了研究这一问题,早期的数据集重点关注图像作为视觉输入。最近,业界提出了众多QA基准,以将视觉信息从图像扩展到视频领域。尽管图像QA基准问题需要一个系统来学习跨模态交互,但视频QA基准问题并不局限于捕获具有时间变化的视觉信息。作为VQA问题的正交延伸,另一个研究方向是在对话环境中研究图像/视频VQA。
在这个问题中,关于给定视频或图像的问题定位在多轮对话中。在每个对话轮中,一个问题通常与先前对话轮中的其他问题表现出不同类型的交叉轮关系,例如对象共同引用和主题对齐。在名为《DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue》的研究中,Facebook和新加坡管理大学的团队研究了多轮视觉问答。
相关论文:DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue
在构建智能多模式系统方面,业界针对多轮视觉问答提出的多种方法表现出了卓越的性能。然而,大多数都呈现边际性能增益,而我们理解其局限性的能力受限于任务的复杂性。现有的基准设计没有足够的信息来确定当前的方法是否能够进行复杂的推理,而这已经成为视觉语言系统中的一个常见问题。
为了解决现有基准的局限性并更有效地分析对话系统,团队提出了一个相应数据集DVD。
团队在图1中演示了DVD中的对话示例。
对于DVD这个研究课题,团队一共引入了17个新的功能模块以用于视频和对话输入组件。如上图所示,系统会根据视频询问和回答一系列的问题。Q1:在立方体旋转结束之前,最大的家伙会执行什么类型的动作?A1:飞行;Q2:在同一时间段内,有多少个滑动对象?A2:2个;Q3:其中有一个球,它在视频中执行了什么类型的动作?A3:没执行任何动作;Q4:现在呢?A4:滑动……
在每个对话回合中,DVD问题测试对话系统,从而对视频执行不同类型的推理,如动作识别和时空推理。在每个回合中,系统通过合并不同类型的语义关系来生成相互关联的问题,包括:(1)时间关系:这需要系统学习在不同的时间段之间定位视频的不同时间段;(2)对象引用:需要系统解析整个对话历史中提到的短引用(代词)或长引用(例如,“前面提到的大对象”);和(3)主题转移:需要系统维护最后一个问题回合的内存,以解决当前回合中的问题。
对于DVD,团队训练了一组基线方法,并从视觉和语言复杂性的几个方面分析了结果。研究人员发现这些方法在需要视频时间和空间定位的问题方面存在困难。在视频和对话中,它们容易受到长句推理的影响,因为它们不是为了在整个对话环境中跟踪活动的视觉对象或相关视频片段而设计。
团队希望DVD数据集将带来新的研究途径,以开发能够在视频和对话媒体进行复杂推理的智能系统。值得一提的是,DVD数据集和代码将在日后公开。
团队的基准提供了一个可用于进行丰富诊断,以更好地理解对话系统的推理能力的数据集。其中,对象通过其属性进行标识,包括对象形状、大小、材质和颜色。团队同时将视频间隔定义为连续视频帧,每个起点和终点可以是对象动作的起点或终点,或整个视频的起点或终点。
DVD数据集通过平衡问答分布生成,严格控制数据偏差,并基于原则性方法构建问题,以反映视频和对话中的复杂性。研究结果表明,DVD可以提供有关系统能力和限制的有趣见解。具体而言,团队分析揭示了当前模型的一些关键缺陷,包括:(1)有效整合时空视觉信息的能力有限;(2) 在长视频间隔内识别和编译多个动作的能力有限;(3) 在对话回合中表现不一致,特别是当系统需要暂时转移注意力时;(4)在对话语境中解决宾语共指的性能不稳定,尤其是当宾语参照的旋转距离增加时。所以,团队希望DVD将成为探索新想法的有用基准。
总的来说,研究人员主要讨论两个研究方向:
- 对话对象跟踪。为了进一步诊断一个对话系统,团队目标是研究它们的长记忆推理能力,以跟踪对象及其在对话情景中提到的属性。为了更好地理解当前系统的长推理能力,评估指标的引入需要一个新的学习任务,即基于视频的对话系统中的对话对象跟踪。
- 视频间隔追踪。对话系统的另一个方面是它们在多回合设置中定位视频片段的能力。随着对话时间的推移,每一个问题都会集中在视频的不同部分。了解一个系统如何将视频的正确片段逐回合定位非常重要。团队为视频间隔跟踪定义了一项新的学习任务,其性质与文本剪辑任务类似。所述任务可以定义为分段候选项的排序任务,以在每个问题回合中选择相关分段。这个任务通过排名指标进行评估。在DVD中,基于时间注意的方法可用于确定模型定位问题视频间隔正确位置的能力。最后要强调的是,DVD设计为一个用于诊断目的的合成数据集,以系统地评估模型能力。基准不应用于取代人类对话的数据,而应用于补充现实世界的对话数据集。