Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus - 专知论文

会员服务 ·

0

跨语言 · 深度研究 · 搜索 · 智能体 · 基准 ·

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

翻译：超越单语深度研究：评估跨语言BrowseComp-Plus中的智能体与检索器

Yuheng Lu,Qingcheng Zeng,Heli Qi,Puxuan Yu,Fuheng Zhao,Rui Yang,Hitomi Yanaka,Naoto Yokoya,Weihao Xuan

from arxiv, Preprint

Deep research agents are increasingly evaluated on their ability to search for evidence, reason over retrieved sources, and produce grounded answers. Existing browsing benchmarks, however, largely assume that the user's query and the supporting evidence are written in the same language, leaving open whether agentic search systems can operate when relevant evidence appears in another language. We introduce XBCP (Cross-lingual BrowseComp-Plus), a controlled benchmark that preserves the English question-and-answer space of BrowseComp-Plus but varies the languages of the supporting documents. XBCP instantiates two complementary settings: in the cross-lingual setting, each query is paired with evidence in a single assigned language. In the multilingual setting, the full evidence corpus is distributed equally and randomly across 12 languages spanning high-resource and low-resource regimes. We evaluate four deep research agents using sparse and dense multilingual retrievers, measuring answer accuracy, evidence recall, search behavior, calibration, citation fidelity, and oracle retrieval. Results reveal substantial degradation when evidence is translated. Even strong, dense retrievers lose evidence recall, and agents become less calibrated and cite evidence less reliably. Notably, accuracy remains lower even when all gold evidence is supplied directly. These findings suggest that cross-lingual deep research exposes both retrieval failures and an independent, agent-side difficulty in integrating language-mismatched evidence.

翻译：深度研究型智能体正日益因其搜索证据、推理检索来源并生成有依据答案的能力而受到评估。然而，现有的浏览基准大多假设用户查询与支持证据使用同一种语言，这使得当相关证据以另一种语言出现时，智能搜索系统的表现仍存疑问。我们引入XBCP（跨语言BrowseComp-Plus），这是一个受控基准，它保留了BrowseComp-Plus的英文问答空间，但改变了支持文档的语言。XBCP实现了两种互补设定：在跨语言设定中，每个查询与指定单一语言的证据配对；在多语言设定中，完整证据语料库平均且随机分布到涵盖高资源与低资源场景的12种语言中。我们使用稀疏与稠密多语言检索器评估了四个深度研究型智能体，衡量了答案准确性、证据召回率、搜索行为、校准度、引用忠实度以及预言检索。结果显示，当证据被翻译后，性能显著下降。即使强大的稠密检索器也会损失证据召回率，智能体校准度变差，且引用证据的可靠性降低。值得注意的是，即使直接提供全部黄金证据，准确性仍然较低。这些发现表明，跨语言深度研究暴露了检索失败以及智能体在整合语言不匹配证据时独立存在的困难。

0

相关内容

跨语言

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

29+阅读 · 2月27日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

33+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

34+阅读 · 2025年8月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

大型语言模型赋能的推荐与搜索智能体综述：迈向下一代信息检索

大型语言模型赋能的推荐与搜索智能体综述：迈向下一代信息检索

专知会员服务

37+阅读 · 2025年3月10日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

30+阅读 · 2025年2月17日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

Arxiv

0+阅读 · 6月17日

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

Arxiv

0+阅读 · 6月15日

S1-DeepResearch: Beyond Search, Toward Real-World Long-Horizon Research Agents

Arxiv

0+阅读 · 6月13日

TVIR: Building Deep Research Agents Towards Text-Visual Interleaved Report Generation

Arxiv

0+阅读 · 6月11日

Towards Retrieving Interaction Spaces for Agentic Search

Arxiv

0+阅读 · 6月5日

Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval

Arxiv

0+阅读 · 6月4日

Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

Arxiv

0+阅读 · 5月30日

GrepSeek: Training Search Agents for Direct Corpus Interaction

Arxiv

0+阅读 · 5月28日

SciNet: Evaluating AI Agents in Relation-Aware Scientific Literature Retrieval

Arxiv

0+阅读 · 5月22日

Personalized Deep Research: A User-Centric Framework, Dataset, and Hybrid Evaluation for Knowledge Discovery

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

29+阅读 · 2月27日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

33+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

34+阅读 · 2025年8月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

大型语言模型赋能的推荐与搜索智能体综述：迈向下一代信息检索

大型语言模型赋能的推荐与搜索智能体综述：迈向下一代信息检索

专知会员服务

37+阅读 · 2025年3月10日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

30+阅读 · 2025年2月17日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

相关论文

Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

Arxiv

0+阅读 · 6月17日

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

Arxiv

0+阅读 · 6月15日

S1-DeepResearch: Beyond Search, Toward Real-World Long-Horizon Research Agents

Arxiv

0+阅读 · 6月13日

TVIR: Building Deep Research Agents Towards Text-Visual Interleaved Report Generation

Arxiv

0+阅读 · 6月11日

Towards Retrieving Interaction Spaces for Agentic Search

Arxiv

0+阅读 · 6月5日

Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval

Arxiv

0+阅读 · 6月4日

Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

Arxiv

0+阅读 · 5月30日

GrepSeek: Training Search Agents for Direct Corpus Interaction

Arxiv

0+阅读 · 5月28日

SciNet: Evaluating AI Agents in Relation-Aware Scientific Literature Retrieval

Arxiv

0+阅读 · 5月22日

Personalized Deep Research: A User-Centric Framework, Dataset, and Hybrid Evaluation for Knowledge Discovery

Arxiv

0+阅读 · 5月11日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员