谁是锦标赛中最富有的俱乐部？检测与改写模糊问题提升问答性能 (Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance) - 专知论文

会员服务 ·

0

自动问答 · 模糊性 · 问答 · 基准 · 基准测试 ·

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

翻译：谁是锦标赛中最富有的俱乐部？检测与改写模糊问题提升问答性能

Yunchong Huang,Gianni Barlacchi,Sandro Pezzelle

from arxiv, 4 pages of main text, 13 pages in total, 5 tables and 10 figures in total

Large language models (LLMs) perform well on well-posed questions, yet standard question-answering (QA) benchmarks remain far from solved. We argue that this gap is partly due to underspecified questions - queries whose interpretation cannot be uniquely determined without additional context. To test this hypothesis, we introduce an LLM-based classifier to identify underspecified questions and apply it to several widely used QA datasets, finding that 16% to over 50% of benchmark questions are underspecified and that LLMs perform significantly worse on them. To isolate the effect of underspecification, we conduct a controlled rewriting experiment that serves as an upper-bound analysis, rewriting underspecified questions into fully specified variants while holding gold answers fixed. QA performance consistently improves under this setting, indicating that many apparent QA failures stem from question underspecification rather than model limitations. Our findings highlight underspecification as an important confound in QA evaluation and motivate greater attention to question clarity in benchmark design.

翻译：大型语言模型（LLMs）在表述明确的问题上表现良好，然而标准的问答（QA）基准测试远未得到解决。我们认为这一差距部分源于模糊问题——那些缺乏额外语境时无法唯一确定其含义的查询。为验证这一假设，我们引入了一种基于LLM的分类器来识别模糊问题，并将其应用于多个广泛使用的QA数据集，发现16%至超过50%的基准问题存在模糊性，且LLMs在这些问题上的表现显著更差。为分离模糊性的影响，我们进行了一项受控改写实验作为上限分析，将模糊问题改写为完全明确的变体，同时保持标准答案不变。在此设定下，QA性能持续提升，表明许多表面上的QA失败源于问题模糊性而非模型局限性。我们的研究结果突显了模糊性作为QA评估中的重要干扰因素，并激励在基准设计中更加关注问题表述的清晰性。

0

相关内容

自动问答

自动问答（Question Answering, QA）是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎，问答系统是信息服务的一种高级形式，系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案。近年来，随着人工智能的飞速发展，自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

多类秘书问题的最优算法设计及竞争比分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

Arxiv

0+阅读 · 2月17日

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

Arxiv

0+阅读 · 2月13日

Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions

Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions

Arxiv

0+阅读 · 2月5日

SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?

Arxiv

0+阅读 · 2月5日

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Arxiv

0+阅读 · 2月4日

Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory

Arxiv

0+阅读 · 2月2日

Medal Matters: Probing LLMs' Failure Cases Through Olympic Rankings

Arxiv

0+阅读 · 1月22日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

论文动态 | 基于知识图谱的问答系统关键技术研究 #02

开放知识图谱

10+阅读 · 2017年8月6日

相关论文

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

Arxiv

0+阅读 · 2月17日

Who is the richest club in the championship? Detecting and Rewriting Underspecified Questions Improve QA Performance

Arxiv

0+阅读 · 2月13日

Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions

Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions

Arxiv

0+阅读 · 2月5日

SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?

Arxiv

0+阅读 · 2月5日

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Arxiv

0+阅读 · 2月4日

Game of Thought: Robust Information Seeking with Large Language Models Using Game Theory

Arxiv

0+阅读 · 2月2日

Medal Matters: Probing LLMs' Failure Cases Through Olympic Rankings

Arxiv

0+阅读 · 1月22日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models

Arxiv

0+阅读 · 1月16日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

多类秘书问题的最优算法设计及竞争比分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员