Knowledge-based Vision Question Answering (KB-VQA) extends general Vision Question Answering (VQA) by not only requiring the understanding of visual and textual inputs but also extensive range of knowledge, enabling significant advancements across various real-world applications. KB-VQA introduces unique challenges, including the alignment of heterogeneous information from diverse modalities and sources, the retrieval of relevant knowledge from noisy or large-scale repositories, and the execution of complex reasoning to infer answers from the combined context. With the advancement of Large Language Models (LLMs), KB-VQA systems have also undergone a notable transformation, where LLMs serve as powerful knowledge repositories, retrieval-augmented generators and strong reasoners. Despite substantial progress, no comprehensive survey currently exists that systematically organizes and reviews the existing KB-VQA methods. This survey aims to fill this gap by establishing a structured taxonomy of KB-VQA approaches, and categorizing the systems into main stages: knowledge representation, knowledge retrieval, and knowledge reasoning. By exploring various knowledge integration techniques and identifying persistent challenges, this work also outlines promising future research directions, providing a foundation for advancing KB-VQA models and their applications.


翻译:基于知识的视觉问答(KB-VQA)在通用视觉问答(VQA)基础上,不仅要求理解视觉与文本输入,还需运用广泛的知识,从而推动了各类实际应用的重要进展。KB-VQA面临独特挑战,包括对齐来自不同模态和来源的异构信息、从含噪或大规模知识库中检索相关知识,以及执行复杂推理以从融合语境中推断答案。随着大语言模型(LLMs)的进步,KB-VQA系统也经历了显著变革:LLMs作为强大的知识库、检索增强生成器及强推理器发挥作用。尽管已有显著进展,但目前尚无系统梳理现有KB-VQA方法的综合综述。本综述旨在填补这一空白,通过构建KB-VQA方法的结构化分类体系,将系统划分为知识表示、知识检索与知识推理三大核心阶段。通过探索多种知识集成技术并识别持续性挑战,本文还指出了未来富有前景的研究方向,为推进KB-VQA模型及其应用奠定基础。

0
下载
关闭预览

相关内容

面向知识库问答的问句语义解析研究综述
专知会员服务
33+阅读 · 2022年12月11日
【2022新书】视觉问答 (VQA):从理论到应用
专知会员服务
63+阅读 · 2022年5月24日
专知会员服务
73+阅读 · 2021年10月6日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
肖仰华 | 基于知识图谱的问答系统
开放知识图谱
29+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
肖仰华 | 基于知识图谱的问答系统
开放知识图谱
29+阅读 · 2017年9月18日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员