Experience intervention in web agents emerges as a promising technical paradigm, enhancing agent interaction capabilities by providing valuable insights from accumulated experiences. However, existing methods predominantly inject experience passively as global context before task execution, struggling to adapt to dynamically changing contextual observations during agent-environment interaction. We propose ExpSeek, which shifts experience toward step-level proactive seeking: (1) estimating step-level entropy thresholds to determine intervention timing using the model's intrinsic signals; (2) designing step-level tailor-designed experience content. Experiments on Qwen3-8B and 32B models across four challenging web agent benchmarks demonstrate that ExpSeek achieves absolute improvements of 9.3% and 7.5%, respectively. Our experiments validate the feasibility and advantages of entropy as a self-triggering signal, reveal that even a 4B small-scale experience model can significantly boost the performance of larger agent models.


翻译:在网络智能体中引入经验干预已成为一种前景广阔的技术范式,它通过提供从累积经验中获得的宝贵洞见来增强智能体的交互能力。然而,现有方法主要在任务执行前将经验作为全局上下文被动注入,难以适应智能体与环境交互过程中动态变化的上下文观察。我们提出了ExpSeek,它将经验利用转向步骤级的主动寻求:(1)利用模型的内在信号估计步骤级熵阈值以确定干预时机;(2)设计步骤级量身定制的经验内容。在四个具有挑战性的网络智能体基准测试上,基于Qwen3-8B和32B模型的实验表明,ExpSeek分别实现了9.3%和7.5%的绝对性能提升。我们的实验验证了熵作为自触发信号的可行性及优势,并揭示即使是4B规模的小型经验模型也能显著提升更大规模智能体模型的性能。

0
下载
关闭预览

相关内容

DeepSeek-V3.2-Exp 论文快速解读
专知会员服务
18+阅读 · 2025年10月2日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员