Recent advances in large language models (LLMs) have led to a growing interest in developing LLM-based agents for automating web tasks. However, these agents often struggle with even simple tasks on real-world websites due to their limited capability to understand and process complex web page structures. In this work, we introduce LCoW, a framework for Learning language models to Contextualize complex Web pages into a more comprehensible form, thereby enhancing decision making by LLM agents. LCoW decouples web page understanding from decision making by training a separate contextualization module to transform complex web pages into comprehensible format, which are then utilized by the decision-making agent. We demonstrate that our contextualization module effectively integrates with LLM agents of various scales to significantly enhance their decision-making capabilities in web automation tasks. Notably, LCoW improves the success rates of closed-source LLMs (e.g., Gemini-1.5-flash, GPT-4o, Claude-3.5-Sonnet) by an average of 15.6%, and demonstrates a 23.7% average improvement in success rates for open-source LMs (e.g., Llama-3.1-8B, Llama-3.1-70B) on the WorkArena benchmark. Moreover, the Gemini-1.5-flash agent with LCoW achieves state-of-the-art results on the WebShop benchmark, outperforming human experts. The relevant code materials are available at our project page: https://lcowiclr2025.github.io.


翻译:近年来,大型语言模型(LLM)的进展引发了人们对开发基于LLM的智能体以自动化网络任务的日益增长的兴趣。然而,由于理解和处理复杂网页结构的能力有限,这些智能体即使在现实世界网站上的简单任务中也常常遇到困难。在本工作中,我们提出了LCoW框架,该框架通过学习语言模型将复杂网页上下文化为更易理解的形式,从而增强LLM智能体的决策能力。LCoW通过训练一个独立的上下文化模块,将复杂网页转换为可理解的格式,从而将网页理解与决策制定解耦,转换后的内容随后由决策制定智能体利用。我们证明,我们的上下文化模块能够与不同规模的LLM智能体有效集成,显著提升其在网络自动化任务中的决策能力。值得注意的是,在WorkArena基准测试中,LCoW将闭源LLM(例如Gemini-1.5-flash、GPT-4o、Claude-3.5-Sonnet)的成功率平均提高了15.6%,并将开源LM(例如Llama-3.1-8B、Llama-3.1-70B)的成功率平均提升了23.7%。此外,配备LCoW的Gemini-1.5-flash智能体在WebShop基准测试中取得了最先进的结果,超越了人类专家。相关代码材料可在我们的项目页面获取:https://lcowiclr2025.github.io。

0
下载
关闭预览

相关内容

【NeurIPS2023】跨情境课程设计的Transformer智能体
专知会员服务
27+阅读 · 2023年10月14日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
教程 | PyTorch经验指南:技巧与陷阱
机器之心
16+阅读 · 2018年7月30日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员