We introduce LiteWebAgent, an open-source suite for VLM-based web agent applications. Our framework addresses a critical gap in the web agent ecosystem with a production-ready solution that combines minimal serverless backend configuration, intuitive user and browser interfaces, and extensible research capabilities in agent planning, memory, and tree search. For the core LiteWebAgent agent framework, we implemented a simple yet effective baseline using recursive function calling, providing with decoupled action generation and action grounding. In addition, we integrate advanced research components such as agent planning, agent workflow memory, and tree search in a modular and extensible manner. We then integrate the LiteWebAgent agent framework with frontend and backend as deployed systems in two formats: (1) a production Vercel-based web application, which provides users with an agent-controlled remote browser, (2) a Chrome extension leveraging LiteWebAgent's API to control an existing Chrome browser via CDP (Chrome DevTools Protocol). The LiteWebAgent framework is available at https://github.com/PathOnAI/LiteWebAgent, with deployed frontend at https://lite-web-agent.vercel.app/.
翻译:本文介绍LiteWebAgent——一个基于视觉语言模型(VLM)的Web智能体应用开源套件。该框架通过提供生产就绪的解决方案填补了Web智能体生态系统的关键空白,其特点包括:极简的无服务器后端配置、直观的用户与浏览器界面,以及在智能体规划、记忆与树搜索方面具备可扩展的研究能力。针对核心的LiteWebAgent智能体框架,我们采用递归函数调用实现了一个简洁而有效的基线系统,实现了动作生成与动作落地的解耦设计。此外,我们以模块化可扩展的方式集成了智能体规划、智能体工作流记忆、树搜索等高级研究组件。随后,我们将LiteWebAgent智能体框架与前后端系统集成,形成两种部署形态:(1)基于Vercel的生产级Web应用,为用户提供智能体控制的远程浏览器;(2)Chrome扩展程序,通过CDP(Chrome开发者工具协议)利用LiteWebAgent API控制现有Chrome浏览器。LiteWebAgent框架开源地址为https://github.com/PathOnAI/LiteWebAgent,部署前端可通过https://lite-web-agent.vercel.app/访问。