Despite advances in multimodal large language models, autonomous web agents still struggle to reliably execute long-horizon tasks on complex and dynamic web interfaces. Existing agents often suffer from inaccurate element grounding, the absence of site-specific procedural knowledge, and unstable long-term task tracking and memory, particularly when operating over complex Document Object Model structures. To address these limitations, we introduce Avenir-Web, a web agent that achieves a new open-source state of the art on the Online-Mind2Web benchmark in real-world deployment. Avenir-Web leverages a Mixture of Grounding Experts, Experience-Imitation Planning for incorporating procedural priors, and a task-tracking checklist combined with adaptive memory to enable robust and seamless interaction across diverse user interface paradigms. We evaluate Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web tasks. Our results demonstrate that Avenir-Web significantly surpasses prior open-source agents and attains performance parity with top-tier proprietary models, thereby establishing a new open-source state of the art for reliable web agents on live websites.


翻译:尽管多模态大语言模型取得了进展,自主网络智能体在复杂动态的网络界面上可靠地执行长程任务时仍面临困难。现有智能体常受限于不精确的元素定位、缺乏站点特定的流程知识,以及不稳定的长期任务追踪与记忆,尤其是在处理复杂的文档对象模型结构时。为应对这些局限,我们提出了Avenir-Web,一种在真实世界部署中于Online-Mind2Web基准测试上达到开源新最佳水平的网络智能体。Avenir-Web利用了混合定位专家、用于融入流程先验的经验模仿规划,以及结合自适应记忆的任务追踪清单,以实现跨多样化用户界面范式的鲁棒无缝交互。我们在Online-Mind2Web这一对实时、以用户为中心的网络任务进行严格评估的基准上对Avenir-Web进行了测试。结果表明,Avenir-Web显著超越了先前的开源智能体,并与顶级专有模型达到了性能相当的水平,从而为实时网站上的可靠网络智能体确立了新的开源最佳水平。

0
下载
关闭预览

相关内容

大模型驱动的社交网络多智能体仿真综述
专知会员服务
14+阅读 · 2月22日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员