We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.


翻译:我们提出了WebGym,这是迄今为止最大的开源环境,用于训练真实的视觉网页智能体。真实网站具有非平稳性和多样性,使得人工或小规模任务集不足以实现鲁棒策略学习。WebGym包含近30万个任务,涵盖多样化的真实网站和难度级别,并采用基于量规的评估方法。我们采用简单的强化学习(RL)方法训练智能体,该方法利用智能体自身的交互轨迹(rollouts)进行训练,并以任务奖励作为反馈来指导学习。为了实现强化学习的规模化,我们通过开发一个专为网页智能体设计的高吞吐量异步轨迹采样系统,加速了WebGym中的轨迹采样。与简单实现相比,我们的系统实现了4-5倍的轨迹采样加速。其次,我们扩展了任务集的广度、深度和规模,从而带来了持续的性能提升。在WebGym上对强大的基础视觉语言模型Qwen-3-VL-8B-Instruct进行微调,使其在分布外测试集上的成功率从26.2%提升至42.9%,显著优于基于GPT-4o和GPT-5-Thinking等专有模型的智能体(其成功率分别为27.1%和29.8%)。这一提升具有重要意义,因为我们的测试集仅包含训练过程中从未见过的网站任务,这与许多先前训练视觉网页智能体的工作不同。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
《基于Transformer的智能体的战术决策解释》
专知会员服务
40+阅读 · 2025年12月28日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
微信小程序支持webP的WebAssembly方案
前端之巅
19+阅读 · 2019年8月14日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
1+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
10+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
4+阅读 · 4月19日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员