CUS-QA：面向本地知识的开放式问答数据集 (CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset) - 专知论文

会员服务 ·

0

自动问答 · 问答 · 包含 · 数据集 · 知识 ·

CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset

翻译：CUS-QA：面向本地知识的开放式问答数据集

Jindřich Libovický,Jindřich Helcl,Andrei Manea,Gianluca Vico

We introduce CUS-QA, a benchmark for evaluation of open-ended regional question answering that encompasses both textual and visual modalities. We also provide strong baselines using state-of-the-art large language models (LLMs). Our dataset consists of manually curated questions and answers grounded in Wikipedia, created by native speakers from Czechia, Slovakia, and Ukraine, with accompanying English translations. It includes both purely textual questions and those requiring visual understanding. We evaluate state-of-the-art LLMs through prompting and add human judgments of answer correctness. Using these human evaluations, we analyze the reliability of existing automatic evaluation metrics. Our baseline results show that even the best open-weight LLMs achieve only over 40% accuracy on textual questions and below 30% on visual questions. LLM-based evaluation metrics show strong correlation with human judgment, while traditional string-overlap metrics perform surprisingly well due to the prevalence of named entities in answers.

翻译：我们介绍了CUS-QA，一个用于评估涵盖文本和视觉模态的开放式区域性问答的基准。我们还利用最先进的大语言模型（LLMs）提供了强有力的基线。我们的数据集包含基于维基百科、由来自捷克、斯洛伐克和乌克兰的母语者创建并配有英文翻译的人工精编问题与答案。它既包含纯文本问题，也包含需要视觉理解的问题。我们通过提示工程评估了最先进的LLMs，并增加了对答案正确性的人工判断。利用这些人工评估，我们分析了现有自动评估指标的可靠性。我们的基线结果表明，即使是最佳的开源权重LLMs，在文本问题上也仅能达到40%以上的准确率，在视觉问题上则低于30%。基于LLM的评估指标与人工判断显示出强相关性，而传统的字符串重叠指标由于答案中普遍存在命名实体，其表现也出人意料地好。

0

相关内容

自动问答

自动问答（Question Answering, QA）是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎，问答系统是信息服务的一种高级形式，系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案。近年来，随着人工智能的飞速发展，自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

《多模态大语言模型在基于模型的系统工程中的视觉问答能力探索》最新报告

《多模态大语言模型在基于模型的系统工程中的视觉问答能力探索》最新报告

专知会员服务

21+阅读 · 2025年5月20日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【CMU博士论文】混合知识架构问答系统，150页pdf

【CMU博士论文】混合知识架构问答系统，150页pdf

专知会员服务

41+阅读 · 2023年12月14日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知会员服务

81+阅读 · 2022年11月14日

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

专知会员服务

27+阅读 · 2022年8月5日

知识库问答系统研究进展

专知会员服务

73+阅读 · 2021年10月6日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

专知

52+阅读 · 2017年11月3日

揭开知识库问答KB-QA的面纱3·信息抽取篇

揭开知识库问答KB-QA的面纱3·信息抽取篇

PaperWeekly

15+阅读 · 2017年8月14日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于地理加权建模的QAR大数据空间异质性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

iQUEST: An Iterative Question-Guided Framework for Knowledge Base Question Answering

Arxiv

0+阅读 · 2月16日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

An Iterative Question-Guided Framework for Knowledge Base Question Answering

Arxiv

0+阅读 · 2月10日

D-SCoRE: Document-Centric Segmentation and CoT Reasoning with Structured Export for QA-CoT Data Generation

Arxiv

0+阅读 · 2月6日

JSynFlow: Japanese Synthesised Flowchart Visual Question Answering Dataset built with Large Language Models

Arxiv

0+阅读 · 2月5日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

Arxiv

0+阅读 · 1月29日

ThinkNote: Enhancing Knowledge Integration and Utilization of Large Language Models via Constructivist Cognition Modeling

Arxiv

0+阅读 · 1月27日

DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

Arxiv

0+阅读 · 1月20日

BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

《多模态大语言模型在基于模型的系统工程中的视觉问答能力探索》最新报告

《多模态大语言模型在基于模型的系统工程中的视觉问答能力探索》最新报告

专知会员服务

21+阅读 · 2025年5月20日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【CMU博士论文】混合知识架构问答系统，150页pdf

【CMU博士论文】混合知识架构问答系统，150页pdf

专知会员服务

41+阅读 · 2023年12月14日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知会员服务

81+阅读 · 2022年11月14日

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

《基于大型知识库进行问答的非参数化上下文推理》2022最新177页博士论文，马萨诸塞大学阿默斯特分校

专知会员服务

27+阅读 · 2022年8月5日

知识库问答系统研究进展

专知会员服务

73+阅读 · 2021年10月6日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

【专知荟萃04】自动问答QA知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

专知

52+阅读 · 2017年11月3日

揭开知识库问答KB-QA的面纱3·信息抽取篇

揭开知识库问答KB-QA的面纱3·信息抽取篇

PaperWeekly

15+阅读 · 2017年8月14日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

相关论文

iQUEST: An Iterative Question-Guided Framework for Knowledge Base Question Answering

Arxiv

0+阅读 · 2月16日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

An Iterative Question-Guided Framework for Knowledge Base Question Answering

Arxiv

0+阅读 · 2月10日

D-SCoRE: Document-Centric Segmentation and CoT Reasoning with Structured Export for QA-CoT Data Generation

Arxiv

0+阅读 · 2月6日

JSynFlow: Japanese Synthesised Flowchart Visual Question Answering Dataset built with Large Language Models

Arxiv

0+阅读 · 2月5日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

Arxiv

0+阅读 · 1月29日

ThinkNote: Enhancing Knowledge Integration and Utilization of Large Language Models via Constructivist Cognition Modeling

Arxiv

0+阅读 · 1月27日

DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

Arxiv

0+阅读 · 1月20日

BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

Arxiv

0+阅读 · 1月19日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于地理加权建模的QAR大数据空间异质性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员