Web agents--autonomous systems that navigate and execute tasks on the web on behalf of users--have the potential to transform how people interact with the digital world. However, the most capable web agents today rely on proprietary models with undisclosed training data and recipes, limiting scientific understanding, reproducibility, and community-driven progress. We believe agents for the open web should be built in the open. To this end, we introduce (1) MolmoWebMix, a large and diverse mixture of browser task demonstrations and web-GUI perception data and (2) MolmoWeb, a family of fully open multimodal web agents. Specifically, MolmoWebMix combines over 100K synthetic task trajectories from multiple complementary generation pipelines with 30K+ human demonstrations, atomic web-skill trajectories, and GUI perception data, including referring expression grounding and screenshot question answering. MolmoWeb agents operate as instruction-conditioned visual-language action policies: given a task instruction and a webpage screenshot, they predict the next browser action, requiring no access to HTML, accessibility trees, or specialized APIs. Available in 4B and 8B size, on browser-use benchmarks like WebVoyager, Online-Mind2Web, and DeepShop, MolmoWeb agents achieve state-of-the-art results outperforming similar scale open-weight-only models such as Fara-7B, UI-Tars-1.5-7B, and Holo1-7B. MolmoWeb-8B also surpasses set-of-marks (SoM) agents built on much larger closed frontier models like GPT-4o. We further demonstrate consistent gains through test-time scaling via parallel rollouts with best-of-N selection, achieving 94.7% and 60.5% pass@4 (compared to 78.2% and 35.3% pass@1) on WebVoyager and Online-Mind2Web respectively. We will release model checkpoints, training data, code, and a unified evaluation harness to enable reproducibility and accelerate open research on web agents.


翻译:网络智能体——能代理用户在网络上自主导航并执行任务的系统——有望改变人与数字世界的交互方式。然而,当前最具能力的网络智能体依赖专有模型,其训练数据和配方未公开,限制了科学理解、可复现性及社区驱动的发展进程。我们认为,面向开放网络的智能体应以开放方式构建。为此,我们引入:(1)MolmoWebMix——一个大规模且多样化的浏览器任务演示与Web-GUI感知数据混合集;(2)MolmoWeb——全开放多模态网络智能体系列。具体而言,MolmoWebMix融合了来自多条互补生成流水线的超10万条合成任务轨迹、3万余条人类演示、原子级网络技能轨迹及GUI感知数据(包括指代表达定位与截图问答)。MolmoWeb智能体作为指令条件化的视觉-语言动作策略运行:给定任务指令与网页截图,即可预测下一个浏览器动作,无需访问HTML、无障碍树或专用API。该系列提供4B与8B参数规模版本,在WebVoyager、Online-Mind2Web及DeepShop等浏览器基准测试上取得最优结果,性能超越同量级的纯开源模型(如Fara-7B、UI-Tars-1.5-7B和Holo1-7B)。MolmoWeb-8B甚至优于基于更大规模闭面前沿模型(如GPT-4o)构建的标记放缩(SoM)智能体。我们进一步通过并行展开结合最优择(best-of-N)策略的测试时扩展,展示了持续的性能增益:在WebVoyager和Online-Mind2Web上,pass@4分别达到94.7%与60.5%(作为对比,pass@1分别为78.2%与35.3%)。我们将公开模型检查点、训练数据、代码及统一评估框架,以确保可复现性并加速网络智能体的开放研究。

0
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
【博士论文】面向开放式世界的鲁棒智能体
专知会员服务
25+阅读 · 2025年12月10日
智能体网络:用AI智能体编织下一代网络
专知会员服务
31+阅读 · 2025年8月5日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
Google & CMU:62页PPT带你理解QANet(附下载链接)
机器学习算法与Python学习
13+阅读 · 2018年7月19日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员