EmbeWebAgent: Embedding Web Agents into Any Customized UI - 专知论文

会员服务 ·

0

嵌入 · 操作 · 鲁棒 · 演示 · 智能体 ·

EmbeWebAgent: Embedding Web Agents into Any Customized UI

翻译：EmbeWebAgent：将智能体嵌入任意定制化用户界面

Chenyang Ma,Clyde Fare,Matthew Wilson,Dave Braines

from arxiv, Technical Report; Live Demo: https://youtu.be/Cy06Ljee1JQ

Most web agents operate at the human interface level, observing screenshots or raw DOM trees without application-level access, which limits robustness and action expressiveness. In enterprise settings, however, explicit control of both the frontend and backend is available. We present EmbeWebAgent, a framework for embedding agents directly into existing UIs using lightweight frontend hooks (curated ARIA and URL-based observations, and a per-page function registry exposed via a WebSocket) and a reusable backend workflow that performs reasoning and takes actions. EmbeWebAgent is stack-agnostic (e.g., React or Angular), supports mixed-granularity actions ranging from GUI primitives to higher-level composites, and orchestrates navigation, manipulation, and domain-specific analytics via MCP tools. Our demo shows minimal retrofitting effort and robust multi-step behaviors grounded in a live UI setting. Live Demo: https://youtu.be/Cy06Ljee1JQ

翻译：大多数网页智能体在用户界面层面运行，通过观察屏幕截图或原始DOM树进行操作，缺乏应用层级的访问权限，这限制了其鲁棒性和动作表达能力。然而，在企业环境中，通常可同时对前端和后端进行显式控制。本文提出EmbeWebAgent，一个通过轻量级前端钩子（精选的ARIA与基于URL的观测数据，以及通过WebSocket暴露的每页面函数注册表）和可复用的后端工作流（负责推理与执行动作）将智能体直接嵌入现有用户界面的框架。EmbeWebAgent与技术栈无关（例如React或Angular均可），支持从图形用户界面基础操作到高层复合动作的混合粒度操作，并通过MCP工具协调导航、操控及领域特定分析。我们的演示表明，该框架仅需极少的改造工作即可实现基于实时用户界面的鲁棒多步骤行为。实时演示：https://youtu.be/Cy06Ljee1JQ

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

33+阅读 · 2025年8月5日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

AI4Web3.0? 北理工等最新《面向Web 3.0的人工智能》综述, 详述基础设施层、接口层、管理层和应用层的技术栈

AI4Web3.0? 北理工等最新《面向Web 3.0的人工智能》综述, 详述基础设施层、接口层、管理层和应用层的技术栈

专知会员服务

48+阅读 · 2023年9月19日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec

万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec

AINLP

10+阅读 · 2019年8月18日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

ISeeYou一款强大的社工工具

ISeeYou一款强大的社工工具

黑白之道

32+阅读 · 2019年5月17日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

WebAssembly在QQ邮箱中的一次实践

WebAssembly在QQ邮箱中的一次实践

IMWeb前端社区

13+阅读 · 2018年12月19日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

QCon

14+阅读 · 2018年3月22日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

AgentHub: A Registry for Discoverable, Verifiable, and Reproducible AI Agents

Arxiv

0+阅读 · 2月26日

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

Arxiv

0+阅读 · 2月19日

World-Model-Augmented Web Agents with Action Correction

Arxiv

0+阅读 · 2月17日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

OpenPhone: Mobile Agentic Foundation Models

Arxiv

0+阅读 · 2月7日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

33+阅读 · 2025年8月5日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

AI4Web3.0? 北理工等最新《面向Web 3.0的人工智能》综述, 详述基础设施层、接口层、管理层和应用层的技术栈

AI4Web3.0? 北理工等最新《面向Web 3.0的人工智能》综述, 详述基础设施层、接口层、管理层和应用层的技术栈

专知会员服务

48+阅读 · 2023年9月19日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec

万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec

AINLP

10+阅读 · 2019年8月18日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

ISeeYou一款强大的社工工具

ISeeYou一款强大的社工工具

黑白之道

32+阅读 · 2019年5月17日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

WebAssembly在QQ邮箱中的一次实践

WebAssembly在QQ邮箱中的一次实践

IMWeb前端社区

13+阅读 · 2018年12月19日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

淘宝前端工程体系DEF——支撑起了几百前端的日常研发

QCon

14+阅读 · 2018年3月22日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

相关论文

AgentHub: A Registry for Discoverable, Verifiable, and Reproducible AI Agents

Arxiv

0+阅读 · 2月26日

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

Arxiv

0+阅读 · 2月19日

World-Model-Augmented Web Agents with Action Correction

Arxiv

0+阅读 · 2月17日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

OpenPhone: Mobile Agentic Foundation Models

Arxiv

0+阅读 · 2月7日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员