LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.


翻译:基于大型语言模型的深度研究智能体主要建立在ReAct框架之上。这种线性设计使得智能体难以回溯早期状态、分支至替代搜索方向或在长上下文下保持全局感知,常导致局部最优、冗余探索和低效搜索。我们提出Re-TRAC智能体框架,通过在每个轨迹后生成结构化状态表示来总结证据、不确定性、失败案例与未来计划,并基于该状态表示调节后续轨迹,从而实现跨轨迹探索。该框架支持迭代反思与全局知情规划,将研究重构为渐进式过程。实验结果表明,在BrowseComp基准测试中,Re-TRAC使用前沿大型语言模型时持续优于ReAct框架15-20%。针对较小模型,我们引入Re-TRAC感知监督微调方法,在同等规模下实现了最先进的性能。值得注意的是,Re-TRAC在多轮迭代中呈现出工具调用次数与令牌使用量的单调递减趋势,表明其探索过程由跨轨迹反思驱动而逐步聚焦,而非进行冗余搜索。

0
下载
关闭预览

相关内容

IEEE国际需求工程会议是研究人员、实践者、教育工作者和学生展示和讨论需求工程学科最新创新、经验和关注点的首要国际论坛。这次会议将为学术界、政府和工业界提供一个广泛的项目,其中包括几位杰出的主旨演讲人和三天的会议,会议内容包括论文、专题讨论、海报和演示。官网链接:https://re20.org/
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
31+阅读 · 2018年10月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关VIP内容
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员