We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.


翻译:本文提出WebGym,这是迄今为止规模最大的开源视觉网页智能体训练环境。真实网站具有非平稳性和多样性,使得人工构建或小规模任务集难以支撑鲁棒策略学习。WebGym包含近30万个任务,涵盖多样化的真实网站及不同难度等级,并配备基于量规的评估体系。我们采用简单的强化学习(RL)方法训练智能体,利用智能体自身交互轨迹(rollouts)进行训练,以任务奖励作为反馈指导学习。为实现强化学习的规模化,我们专门为网页智能体开发了高吞吐异步轨迹采样系统,显著提升了WebGym中的轨迹采样效率。相较于原始实现,该系统实现了4-5倍的轨迹采样加速。其次,我们通过拓展任务集的广度、深度与规模,实现了持续的性能提升。在WebGym上对强基础视觉语言模型Qwen-3-VL-8B-Instruct进行微调后,其在分布外测试集上的成功率从26.2%提升至42.9%,显著优于基于GPT-4o(27.1%)和GPT-5-Thinking(29.8%)等专有模型的智能体。这一提升具有实质性意义,因为我们的测试集仅包含训练阶段从未见过的网站任务,这与以往许多视觉网页智能体训练研究的设计有显著不同。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员