Facebook研究为AR/VR开发能推理回答视觉信息问题的智能系统
开发能够推理和回答视觉信息问题的智能系统
(映维网 2021年11月01日)视觉问答研究(VQA)旨在开发能够推理和回答视觉信息问题的智能系统。为了研究这一问题,早期的数据集重点关注图像作为视觉输入。最近,业界提出了众多QA基准,以将视觉信息从图像扩展到视频领域。尽管图像QA基准问题需要一个系统来学习跨模态交互,但视频QA基准问题并不局限于捕获具有时间变化的视觉信息。作为VQA问题的正交延伸,另一个研究方向是在对话环境中研究图像/视频VQA。
在这个问题中,关于给定视频或图像的问题定位在多轮对话中。在每个对话轮中,一个问题通常与先前对话轮中的其他问题表现出不同类型的交叉轮关系,例如对象共同引用和主题对齐。在名为《DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue》的研究中,Facebook和新加坡管理大学的团队研究了多轮视觉问答。
相关论文:DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue
在构建智能多模式系统方面,业界针对多轮视觉问答提出的多种方法表现出了卓越的性能。然而,大多数都呈现边际性能增益,而我们理解其局限性的能力受限于任务的复杂性。现有的基准设计没有足够的信息来确定当前的方法是否能够进行复杂的推理,而这已经成为视觉语言系统中的一个常见问题。
......(全文 1717 字,剩余 1256 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限