WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks - 专知论文

会员服务 ·

0

智能体 · 包含 · 系统 · 测试集 · 非平稳 ·

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

翻译：WebGym：面向视觉网页智能体的真实任务可扩展训练环境

Hao Bai,Alexey Taymanov,Tong Zhang,Aviral Kumar,Spencer Whitehead

from arxiv, Fixed typo in Figure 2

We present WebGym, the largest-to-date open-source environment for training realistic visual web agents. Real websites are non-stationary and diverse, making artificial or small-scale task sets insufficient for robust policy learning. WebGym contains nearly 300,000 tasks with rubric-based evaluations across diverse, real-world websites and difficulty levels. We train agents with a simple reinforcement learning (RL) recipe, which trains on the agent's own interaction traces (rollouts), using task rewards as feedback to guide learning. To enable scaling RL, we speed up sampling of trajectories in WebGym by developing a high-throughput asynchronous rollout system, designed specifically for web agents. Our system achieves a 4-5x rollout speedup compared to naive implementations. Second, we scale the task set breadth, depth, and size, which results in continued performance improvement. Fine-tuning a strong base vision-language model, Qwen-3-VL-8B-Instruct, on WebGym results in an improvement in success rate on an out-of-distribution test set from 26.2% to 42.9%, significantly outperforming agents based on proprietary models such as GPT-4o and GPT-5-Thinking that achieve 27.1% and 29.8%, respectively. This improvement is substantial because our test set consists only of tasks on websites never seen during training, unlike many other prior works on training visual web agents.

翻译：我们提出了WebGym，这是迄今为止最大的开源环境，用于训练真实的视觉网页智能体。真实网站具有非平稳性和多样性，使得人工或小规模任务集不足以实现鲁棒策略学习。WebGym包含近30万个任务，涵盖多样化的真实网站和难度级别，并采用基于量规的评估方法。我们采用简单的强化学习（RL）方法训练智能体，该方法利用智能体自身的交互轨迹（rollouts）进行训练，并以任务奖励作为反馈来指导学习。为了实现强化学习的规模化，我们通过开发一个专为网页智能体设计的高吞吐量异步轨迹采样系统，加速了WebGym中的轨迹采样。与简单实现相比，我们的系统实现了4-5倍的轨迹采样加速。其次，我们扩展了任务集的广度、深度和规模，从而带来了持续的性能提升。在WebGym上对强大的基础视觉语言模型Qwen-3-VL-8B-Instruct进行微调，使其在分布外测试集上的成功率从26.2%提升至42.9%，显著优于基于GPT-4o和GPT-5-Thinking等专有模型的智能体（其成功率分别为27.1%和29.8%）。这一提升具有重要意义，因为我们的测试集仅包含训练过程中从未见过的网站任务，这与许多先前训练视觉网页智能体的工作不同。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

34+阅读 · 2025年8月11日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

33+阅读 · 2025年8月5日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

量子位

10+阅读 · 2019年3月25日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

How to Train Your LLM Web Agent: A Statistical Diagnosis

Arxiv

0+阅读 · 2月13日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月12日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月10日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月8日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

49+阅读 · 2025年12月28日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

基于大语言模型的深度搜索智能体综述：范式、优化、评测与挑战

专知会员服务

34+阅读 · 2025年8月11日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

33+阅读 · 2025年8月5日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

GitHub超过3000赞的「机器学习路线图」，教你升级打怪全攻略

量子位

10+阅读 · 2019年3月25日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

相关论文

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

How to Train Your LLM Web Agent: A Statistical Diagnosis

Arxiv

0+阅读 · 2月13日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月12日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月10日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Arxiv

0+阅读 · 2月8日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments

Arxiv

0+阅读 · 1月12日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员