Recent advances in large reasoning models LRMs have enabled agentic search systems to perform complex multi-step reasoning across multiple sources. However, most studies focus on general information retrieval and rarely explores vertical domains with unique challenges. In this work, we focus on local life services and introduce LocalSearchBench, which encompass diverse and complex business scenarios. Real-world queries in this domain are often ambiguous and require multi-hop reasoning across merchants and products, remaining challenging and not fully addressed. As the first comprehensive benchmark for agentic search in local life services, LocalSearchBench comprises a database of over 1.3M merchant entries across 6 service categories and 9 major cities, and 900 multi-hop QA tasks from real user queries that require multi-step reasoning. We also developed LocalPlayground, a unified environment integrating multiple tools for LRMs interaction. Experiments show that even state-of-the-art LRMs struggle on LocalSearchBench: the best model (DeepSeek-V3.2) achieves only 35.60% correctness, and most models have issues with completeness (average 60.32%) and faithfulness (average 30.72%). This highlights the need for specialized benchmarks and domain-specific agent training in local life services. Code, Benchmark, and Leaderboard are available at https://localsearchbench.github.io/.


翻译:大型推理模型(LRM)的最新进展使得智能体搜索系统能够在多个来源间执行复杂的多步推理。然而,大多数研究集中于通用信息检索,很少探索具有独特挑战性的垂直领域。在这项工作中,我们聚焦于本地生活服务领域,并引入了LocalSearchBench,该基准涵盖了多样且复杂的商业场景。该领域中的真实用户查询通常具有模糊性,并需要跨商户和商品进行多跳推理,这仍然具有挑战性且尚未得到充分解决。作为首个针对本地生活服务的智能体搜索综合性基准,LocalSearchBench包含一个覆盖6个服务类别和9个主要城市、超过130万条商户记录的数据库,以及来自真实用户查询的900个需要多步推理的多跳问答任务。我们还开发了LocalPlayground,这是一个集成了多种工具供LRM交互的统一环境。实验表明,即使是最先进的大型推理模型在LocalSearchBench上也表现不佳:最佳模型(DeepSeek-V3.2)的正确率仅为35.60%,并且大多数模型在完整性(平均60.32%)和忠实性(平均30.72%)方面存在问题。这凸显了在本地生活服务领域需要专门的基准和针对特定领域的智能体训练。代码、基准数据和排行榜可在 https://localsearchbench.github.io/ 获取。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员