With the advancement of vision-language models, web automation has made significant progress. However, deploying autonomous agents in real-world settings remains challenging, primarily due to site heterogeneity, where generalist models lack domain-specific priors for diverse interfaces, and long-horizon instability, characterized by the accumulation of decision drift over extended interactions. To address these challenges, we introduce ColorBrowserAgent (Complex Long-Horizon Browser Agent), a knowledge-evolving agent for robust web automation. Our approach addresses these challenges through two synergistic mechanisms: human-in-the-loop knowledge adaptation that transforms sparse human feedback into reusable domain knowledge, and knowledge-aligned progressive summarization that stabilizes long interactions through memory compression. Extensive experiments on WebArena, WebChoreArena and industrial deployment show that ColorBrowserAgent consistently outperforms strong baselines. It achieves a state-of-the-art success rate of 71.2% on WebArena and maintains 47.4% performance under zero-shot transfer setting on WebChoreArena. In commercial deployment, it improves user satisfaction by 19.3% relatively, verifying its robustness in real-world scenarios.


翻译:随着视觉语言模型的发展,网络自动化已取得显著进展。然而,在真实世界场景中部署自主智能体仍然面临挑战,这主要源于两方面:站点异质性,即通用模型缺乏针对多样化界面的领域先验知识;以及长程不稳定性,其特点是决策漂移在长时间交互过程中的累积。为应对这些挑战,我们提出了ColorBrowserAgent(复杂长程浏览器智能体),一种用于鲁棒网络自动化的知识演化智能体。我们的方法通过两种协同机制解决这些挑战:人机协同知识适应,将稀疏的人类反馈转化为可复用的领域知识;以及知识对齐的渐进式摘要,通过记忆压缩来稳定长程交互。在WebArena、WebChoreArena以及工业部署上进行的大量实验表明,ColorBrowserAgent始终优于强基线模型。它在WebArena上实现了71.2%的最新成功率,并在WebChoreArena的零样本迁移设置下保持了47.4%的性能。在商业部署中,它相对提升了19.3%的用户满意度,验证了其在真实场景中的鲁棒性。

0
下载
关闭预览

相关内容

视觉知识:跨媒体智能进化的新支点
专知会员服务
28+阅读 · 2022年6月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员