ViTextVQA: A Large-Scale Visual Question Answering Dataset and a Novel Multimodal Feature Fusion Method for Vietnamese Text Comprehension in Images - 专知论文

会员服务 ·

0

视觉问答 · 数据集 · 问答 · 多模 · 模态 ·

ViTextVQA: A Large-Scale Visual Question Answering Dataset and a Novel Multimodal Feature Fusion Method for Vietnamese Text Comprehension in Images

翻译：ViTextVQA：一个用于图像中越南语文本理解的大规模视觉问答数据集及一种新颖的多模态特征融合方法

Quan Van Nguyen,Dan Quang Tran,Huy Quang Pham,Thang Kien-Bao Nguyen,Nghia Hieu Nguyen,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen

from arxiv, International Journal of Expert Systems with Applications

Visual Question Answering (VQA) is a challenging task that requires the joint understanding of natural language and visual content. While early research primarily focused on recognizing objects and scene context, it often overlooked scene text-an essential source of explicit semantic information. This paper introduces \textbf{ViTextVQA} (\textbf{Vi}etnamese \textbf{Text}-based \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering), the first large-scale Vietnamese dataset specializing in text-based VQA. The dataset contains \textbf{over 16,000} images and \textbf{over 50,000} question-answer pairs. To tackle this task efficiently, \textbf{ViTextBLIP-2} (Vietnamese Text-based Bootstrapped Language-Image Model via Fine-tuning) is proposed, a novel multimodal feature fusion method designed to optimize Vietnamese text-based VQA. Experiments with state-of-the-art models highlight the importance of token ordering in OCR text for answer generation, leading to significant performance improvements. The ViTextVQA dataset is publicly available for research purposes.

翻译：视觉问答（VQA）是一项需要同时理解自然语言和视觉内容的挑战性任务。早期研究主要集中于识别物体和场景上下文，但常常忽略了场景文本——这一显式语义信息的重要来源。本文介绍了 **ViTextVQA**（**Vi**etnamese **Text**-based **V**isual **Q**uestion **A**nswering），这是首个专注于基于文本的VQA的大规模越南语数据集。该数据集包含**超过16,000张**图像和**超过50,000个**问答对。为有效应对此任务，本文提出了 **ViTextBLIP-2**（Vietnamese Text-based Bootstrapped Language-Image Model via Fine-tuning），这是一种新颖的多模态特征融合方法，旨在优化基于越南语文本的VQA。与最先进模型的实验突显了OCR文本中词元顺序对于答案生成的重要性，从而带来了显著的性能提升。ViTextVQA数据集已公开发布，供研究使用。

0

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

专知会员服务

26+阅读 · 2025年1月8日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

专知会员服务

24+阅读 · 2024年1月15日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【2022新书】视觉问答 (VQA)：从理论到应用

【2022新书】视觉问答 (VQA)：从理论到应用

专知会员服务

63+阅读 · 2022年5月24日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Arxiv

0+阅读 · 3月8日

VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval

Arxiv

0+阅读 · 2月22日

ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images

Arxiv

0+阅读 · 2月16日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

GLIMPSE : Real-Time Text Recognition and Contextual Understanding for VQA in Wearables

Arxiv

0+阅读 · 2月13日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Vistoria: A Multimodal System to Support Fictional Story Writing through Instrumental Text-Image Co-Editing

Arxiv

0+阅读 · 2月5日

VIRAL: Visual In-Context Reasoning via Analogy in Diffusion Transformers

Arxiv

0+阅读 · 2月3日

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Arxiv

10+阅读 · 2019年9月4日

VIP会员

文章信息

相关主题

最新内容

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

0+阅读 · 4分钟前

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

0+阅读 · 12分钟前

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

3+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

8+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

11+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

18+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

相关VIP内容

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

专知会员服务

26+阅读 · 2025年1月8日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

【AAAI2024】BOK-VQA：基于双语外部知识的视觉问题回答，通过图表示预训练

专知会员服务

24+阅读 · 2024年1月15日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

【CVPR2023】带有答案启发式的大型语言模型提示的知识视觉问答

专知会员服务

38+阅读 · 2023年3月6日

【2022新书】视觉问答 (VQA)：从理论到应用

【2022新书】视觉问答 (VQA)：从理论到应用

专知会员服务

63+阅读 · 2022年5月24日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

相关论文

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Arxiv

0+阅读 · 3月8日

VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval

Arxiv

0+阅读 · 2月22日

ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images

Arxiv

0+阅读 · 2月16日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

GLIMPSE : Real-Time Text Recognition and Contextual Understanding for VQA in Wearables

Arxiv

0+阅读 · 2月13日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Vistoria: A Multimodal System to Support Fictional Story Writing through Instrumental Text-Image Co-Editing

Arxiv

0+阅读 · 2月5日

VIRAL: Visual In-Context Reasoning via Analogy in Diffusion Transformers

Arxiv

0+阅读 · 2月3日

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Arxiv

10+阅读 · 2019年9月4日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员