We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.


翻译:我们提出了WebGym,这是迄今为止最大的开源环境,用于训练真实的视觉网页智能体。真实网站具有非平稳性和多样性,使得人工或小规模任务集不足以实现鲁棒策略学习。WebGym包含近30万个任务,涵盖多样化的真实网站和难度级别,并采用基于量规的评估方法。我们采用简单的强化学习(RL)方法训练智能体,该方法利用智能体自身的交互轨迹(rollouts)进行训练,并以任务奖励作为反馈来指导学习。为了实现强化学习的规模化,我们通过开发一个专为网页智能体设计的高吞吐量异步轨迹采样系统,加速了WebGym中的轨迹采样。与简单实现相比,我们的系统实现了4-5倍的轨迹采样加速。其次,我们扩展了任务集的广度、深度和规模,从而带来了持续的性能提升。在WebGym上对强大的基础视觉语言模型Qwen-3-VL-8B-Instruct进行微调,使其在分布外测试集上的成功率从26.2%提升至42.9%,显著优于基于GPT-4o和GPT-5-Thinking等专有模型的智能体(其成功率分别为27.1%和29.8%)。这一提升具有重要意义,因为我们的测试集仅包含训练过程中从未见过的网站任务,这与许多先前训练视觉网页智能体的工作不同。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
《基于Transformer的智能体的战术决策解释》
专知会员服务
39+阅读 · 2025年12月28日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
微信小程序支持webP的WebAssembly方案
前端之巅
19+阅读 · 2019年8月14日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
43+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员