Deep Research (DR) agents extend Large Language Models (LLMs) beyond parametric knowledge by autonomously retrieving and synthesizing evidence from large web corpora into long-form reports, enabling a long-horizon agentic paradigm. However, unlike real-time conversational assistants, DR is computationally expensive and time-consuming, creating an autonomy-interaction dilemma: high autonomy on ambiguous user queries often leads to prolonged execution with unsatisfactory outcomes. To address this, we propose IntentRL, a framework that trains proactive agents to clarify latent user intents before starting long-horizon research. To overcome the scarcity of open-ended research data, we introduce a scalable pipeline that expands a few seed samples into high-quality dialogue turns via a shallow-to-deep intent refinement graph. We further adopt a two-stage reinforcement learning (RL) strategy: Stage I applies RL on offline dialogues to efficiently learn general user-interaction behavior, while Stage II uses the trained agent and a user simulator for online rollouts to strengthen adaptation to diverse user feedback. Extensive experiments show that IntentRL significantly improves both intent hit rate and downstream task performance, outperforming the built-in clarify modules of closed-source DR agents and proactive LLM baselines.


翻译:深度研究(DR)代理通过自主从大型网络语料库中检索证据并将其综合成长篇报告,将大型语言模型(LLM)的能力扩展至参数化知识之外,从而实现一种长视野的自主范式。然而,与实时对话助手不同,深度研究计算成本高且耗时,这造成了一种自主性与交互性之间的困境:对模糊用户查询的高度自主性常常导致执行时间过长且结果不尽如人意。为解决此问题,我们提出了IntentRL,一个训练主动代理在开始长视野研究之前澄清潜在用户意图的框架。为克服开放式研究数据稀缺的挑战,我们引入了一个可扩展的流水线,通过一个从浅层到深层的意图精化图,将少量种子样本扩展为高质量的对话轮次。我们进一步采用了两阶段强化学习(RL)策略:第一阶段在离线对话上应用RL,以高效学习通用的用户交互行为;第二阶段则使用训练好的代理和一个用户模拟器进行在线推演,以增强对多样化用户反馈的适应能力。大量实验表明,IntentRL在意图命中率和下游任务性能上均有显著提升,其表现优于闭源深度研究代理的内置澄清模块以及主动型LLM基线方法。

0
下载
关闭预览

相关内容

AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
专知会员服务
115+阅读 · 2020年12月31日
当深度强化学习遇见图神经网络
专知
227+阅读 · 2019年10月21日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
专知会员服务
115+阅读 · 2020年12月31日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员