SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models - 专知论文

会员服务 ·

0

增强语言模型 · 基准 · 语言模型 · 检索增强 · 准确率 ·

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

翻译：SealQA：提升检索增强语言模型推理能力的新基准

Thinh Pham,Nguyen Nguyen,Pratibha Zunjare,Weiyuan Chen,Yu-Min Tseng,Tu Vu

from arxiv, Camera Ready version for ICLR 2026

We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.

翻译：我们提出了SealQA，这是一个用于评估检索增强语言模型在事实性问答任务上表现的新型挑战性基准。该任务专门针对那些通过网页检索会得到矛盾、嘈杂或无帮助结果的问题。SealQA包含三个版本：(1) Seal-0（主要版本）和(2) Seal-Hard，用于评估事实准确性和推理能力，其中Seal-0聚焦于最具挑战性的问题——在这类问题上，聊天模型（例如GPT-4.1）的准确率通常接近零；(3) LongSeal，它将SealQA扩展至长上下文、多文档的“大海捞针”式推理场景。我们的评估揭示了当前模型的关键局限性：即使是前沿的大语言模型在所有SealQA版本上的表现都很差。在Seal-0上，配备了o3和o4-mini等工具的前沿智能体模型，在其最佳推理状态下，准确率也分别仅为17.1%和6.3%。我们发现，像DeepSeek-R1-671B和o3-mini这样的先进推理模型，对嘈杂的检索结果极为敏感。值得注意的是，增加测试时的计算资源并未能在o3-mini、o4-mini和o3模型上带来可靠的性能提升，其表现往往很快达到平台期甚至下降。此外，尽管近期模型受“中间信息丢失”问题的影响较小，但在LongSeal任务中面对大量干扰文档时，它们仍然无法可靠地识别出相关文档。为了促进未来研究，我们已在huggingface.co/datasets/vtllms/sealqa发布了SealQA数据集。

0

相关内容

增强语言模型

增强语言模型

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

32+阅读 · 3月14日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

【WWW2024】元认知检索-增强大型语言模型

【WWW2024】元认知检索-增强大型语言模型

专知会员服务

50+阅读 · 2024年2月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

神经图推理:满足图数据库的复杂逻辑查询回答

神经图推理:满足图数据库的复杂逻辑查询回答

专知会员服务

16+阅读 · 2023年4月3日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

搭建自己的searx搜索引擎

搭建自己的searx搜索引擎

黑白之道

13+阅读 · 2019年5月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Arxiv

0+阅读 · 4月9日

Distilling Reasoning Without Knowledge: A Framework for Reliable LLMs

Arxiv

0+阅读 · 3月15日

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Arxiv

0+阅读 · 3月10日

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Arxiv

0+阅读 · 3月9日

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Arxiv

0+阅读 · 3月8日

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Arxiv

0+阅读 · 3月3日

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Arxiv

0+阅读 · 3月1日

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Arxiv

0+阅读 · 2月25日

Augmenting Lateral Thinking in Language Models with Humor and Riddle Data for the BRAINTEASER Task

Arxiv

0+阅读 · 2月23日

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

增强语言模型

最新内容

新兴反无人机技术与不对称防御对策

新兴反无人机技术与不对称防御对策

专知会员服务

1+阅读 · 今天15:12

《美空军条令出版物 3-60，目标定位（2026版）》

《美空军条令出版物 3-60，目标定位（2026版）》

专知会员服务

1+阅读 · 今天15:06

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

专知会员服务

2+阅读 · 今天14:54

《无人机在冲突地区提供紧急医疗与外科支持》

《无人机在冲突地区提供紧急医疗与外科支持》

专知会员服务

1+阅读 · 今天14:48

《定向能武器交战授权治理管道》

《定向能武器交战授权治理管道》

专知会员服务

1+阅读 · 今天14:41

《防空协同制导：用于中段目标分配的多目标成本函数》

《防空协同制导：用于中段目标分配的多目标成本函数》

专知会员服务

1+阅读 · 今天14:35

《人工智能与海军作战》最新报告

《人工智能与海军作战》最新报告

专知会员服务

1+阅读 · 今天14:00

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

1+阅读 · 今天13:17

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

1+阅读 · 今天13:07

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

2+阅读 · 今天13:04

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

2+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

2+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

相关VIP内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

32+阅读 · 3月14日

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

7+阅读 · 2025年6月10日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

【WWW2024】元认知检索-增强大型语言模型

【WWW2024】元认知检索-增强大型语言模型

专知会员服务

50+阅读 · 2024年2月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

神经图推理:满足图数据库的复杂逻辑查询回答

神经图推理:满足图数据库的复杂逻辑查询回答

专知会员服务

16+阅读 · 2023年4月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物 3-60，目标定位（2026版）》

《无人机在冲突地区提供紧急医疗与外科支持》

新兴反无人机技术与不对称防御对策

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

搭建自己的searx搜索引擎

搭建自己的searx搜索引擎

黑白之道

13+阅读 · 2019年5月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Arxiv

0+阅读 · 4月9日

Distilling Reasoning Without Knowledge: A Framework for Reliable LLMs

Arxiv

0+阅读 · 3月15日

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Arxiv

0+阅读 · 3月10日

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Arxiv

0+阅读 · 3月9日

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Arxiv

0+阅读 · 3月8日

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Arxiv

0+阅读 · 3月3日

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Arxiv

0+阅读 · 3月1日

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Arxiv

0+阅读 · 2月25日

Augmenting Lateral Thinking in Language Models with Humor and Riddle Data for the BRAINTEASER Task

Arxiv

0+阅读 · 2月23日

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Arxiv

0+阅读 · 2月22日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员