Real-world multi-hop QA is naturally linked with ambiguity, where a single query can trigger multiple reasoning paths that require independent resolution. Since ambiguity can occur at any stage, models must navigate layered uncertainty throughout the entire reasoning chain. Despite its prevalence in real-world user queries, previous benchmarks have primarily focused on single-hop ambiguity, leaving the complex interaction between multi-step inference and layered ambiguity underexplored. In this paper, we introduce \textbf{MARCH}, a benchmark for their intersection, with 2,209 multi-hop ambiguous questions curated via multi-LLM verification and validated by human annotation with strong agreement. Our experiments reveal that even state-of-the-art models struggle with MARCH, confirming that combining ambiguity resolution with multi-step reasoning is a significant challenge. To address this, we propose \textbf{CLARION}, a two-stage agentic framework that explicitly decouples ambiguity planning from evidence-driven reasoning, significantly outperforms existing approaches, and paves the way for robust reasoning systems.


翻译:现实世界的多跳问答自然与歧义相关联,单个查询可能触发多条需要独立解决的推理路径。由于歧义可能出现在任何阶段,模型必须在整个推理链中处理多层次的模糊性。尽管歧义在现实用户查询中普遍存在,但以往的基准测试主要关注单跳歧义,对多步推理与层次化歧义之间的复杂交互关系探索不足。本文提出\textbf{MARCH}基准,专门针对这一交叉领域,包含2,209个通过多LLM验证筛选并经人工标注达成强一致性的多跳歧义问题。实验表明,即使最先进的模型在MARCH上也表现不佳,这证实了将歧义解析与多步推理相结合是一项重大挑战。为此,我们提出\textbf{CLARION}——一个两阶段的智能体框架,其显式解耦歧义规划与证据驱动推理,显著优于现有方法,为构建鲁棒的推理系统开辟了新路径。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
【NeurIPS2024】MECD:解锁视频推理中的多事件因果发现
专知会员服务
19+阅读 · 2024年9月28日
《多跳战术网络中 5G 及其他侧链路通信的作用》
专知会员服务
28+阅读 · 2024年6月6日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
26+阅读 · 2021年12月5日
专知会员服务
90+阅读 · 2021年6月13日
【WSDM2021】通过学习中间监督信号改进多跳知识库问答
专知会员服务
11+阅读 · 2021年1月14日
【NeurIPS 2020 - 斯坦福】知识图谱中多跳逻辑推理的Beta嵌入
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员