pdfQA：面向PDF文档的多样化、挑战性与真实性问答 (pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs) - 专知论文

会员服务 ·

0

问答 · 数据集 · 样本 · HTML · 构建 ·

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

翻译：pdfQA：面向PDF文档的多样化、挑战性与真实性问答

Tobias Schimanski,Imene Kolli,Yu Fan,Ario Saeid Vaghefi,Jingwei Ni,Elliott Ash,Markus Leippold

PDFs are the second-most used document type on the internet (after HTML). Yet, existing QA datasets commonly start from text sources or only address specific domains. In this paper, we present pdfQA, a multi-domain 2K human-annotated (real-pdfQA) and 2K synthetic dataset (syn-pdfQA) differentiating QA pairs in ten complexity dimensions (e.g., file type, source modality, source position, answer type). We apply and evaluate quality and difficulty filters on both datasets, obtaining valid and challenging QA pairs. We answer the questions with open-source LLMs, revealing existing challenges that correlate with our complexity dimensions. pdfQA presents a basis for end-to-end QA pipeline evaluation, testing diverse skill sets and local optimizations (e.g., in information retrieval or parsing).

翻译：PDF是互联网上使用量第二大的文档类型（仅次于HTML）。然而，现有问答数据集通常基于文本源构建或仅针对特定领域。本文提出了pdfQA数据集，该多领域数据集包含2K人工标注样本（real-pdfQA）与2K合成样本（syn-pdfQA），其问答对在十个复杂度维度上进行区分（如文件类型、来源模态、来源位置、答案类型）。我们对两个数据集实施质量与难度筛选，获得有效且具挑战性的问答对。通过开源大语言模型进行问题解答，揭示了与复杂度维度相关的现存挑战。pdfQA为端到端问答流程评估提供了基准，能够测试多样化技能组合与局部优化策略（如信息检索或解析环节）。

0

相关内容

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

专知会员服务

26+阅读 · 2025年1月8日

【WWW2024】利用大型语言模型的多角色能力进行开放领域问答

【WWW2024】利用大型语言模型的多角色能力进行开放领域问答

专知会员服务

29+阅读 · 2024年4月23日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知会员服务

81+阅读 · 2022年11月14日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【2022新书】视觉问答 (VQA)：从理论到应用

【2022新书】视觉问答 (VQA)：从理论到应用

专知会员服务

63+阅读 · 2022年5月24日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Arxiv

0+阅读 · 2月3日

JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs

Arxiv

0+阅读 · 1月30日

$G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA

Arxiv

0+阅读 · 1月29日

PRACTIQ: A Practical Conversational Text-to-SQL dataset with Ambiguous and Unanswerable Queries

Arxiv

0+阅读 · 1月23日

QKVQA: Question-Focused Filtering for Knowledge-based VQA

Arxiv

0+阅读 · 1月21日

PDFInspect: A Unified Feature Extraction Framework for Malicious Document Detection

Arxiv

0+阅读 · 1月19日

POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering

Arxiv

0+阅读 · 1月8日

LittiChoQA: Literary Texts in Indic Languages Chosen for Question Answering

Arxiv

0+阅读 · 1月6日

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

Arxiv

0+阅读 · 1月5日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员

文章信息

相关主题

相关VIP内容

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

【万字长文】视觉问答VQA：从早期发展到最新进展——综述

专知会员服务

26+阅读 · 2025年1月8日

【WWW2024】利用大型语言模型的多角色能力进行开放领域问答

【WWW2024】利用大型语言模型的多角色能力进行开放领域问答

专知会员服务

29+阅读 · 2024年4月23日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知会员服务

81+阅读 · 2022年11月14日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【2022新书】视觉问答 (VQA)：从理论到应用

【2022新书】视觉问答 (VQA)：从理论到应用

专知会员服务

63+阅读 · 2022年5月24日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

相关论文

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Arxiv

0+阅读 · 2月3日

JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs

Arxiv

0+阅读 · 1月30日

$G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA

Arxiv

0+阅读 · 1月29日

PRACTIQ: A Practical Conversational Text-to-SQL dataset with Ambiguous and Unanswerable Queries

Arxiv

0+阅读 · 1月23日

QKVQA: Question-Focused Filtering for Knowledge-based VQA

Arxiv

0+阅读 · 1月21日

PDFInspect: A Unified Feature Extraction Framework for Malicious Document Detection

Arxiv

0+阅读 · 1月19日

POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering

Arxiv

0+阅读 · 1月8日

LittiChoQA: Literary Texts in Indic Languages Chosen for Question Answering

Arxiv

0+阅读 · 1月6日

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

Arxiv

0+阅读 · 1月5日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员