AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents - 专知论文

会员服务 ·

0

AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents

翻译：AgentLens：面向移动GUI代理中人类-代理交互的自适应视觉模态

Jeonghyeon Kim,Byeongjun Joung,Junwon Lee,Joohyung Lee,Taehoon Min,Sunjae Lee

Mobile GUI agents can automate smartphone tasks by interacting directly with app interfaces, but how they should communicate with users during execution remains underexplored. Existing systems rely on two extremes: foreground execution, which maximizes transparency but prevents multitasking, and background execution, which supports multitasking but provides little visual awareness. Through iterative formative studies, we found that users prefer a hybrid model with just-in-time visual interaction, but the most effective visualization modality depends on the task. Motivated by this, we present AgentLens, a mobile GUI agent that adaptively uses three visual modalities during human-agent interaction: Full UI, Partial UI, and GenUI. AgentLens extends a standard mobile agent with adaptive communication actions and uses Virtual Display to enable background execution with selective visual overlays. In a controlled study with 21 participants, AgentLens was preferred by 85.7% of participants and achieved the highest usability (1.94 Overall PSSUQ) and adoption-intent (6.43/7).

翻译：移动GUI代理可通过直接操作应用界面来自动化智能手机任务，但它们在执行过程中如何与用户通信仍缺乏充分探索。现有系统依赖两种极端方式：前台执行能最大化透明度但阻碍多任务处理，后台执行虽支持多任务但视觉感知能力薄弱。通过迭代式形成性研究，我们发现用户偏好具有即时视觉交互的混合模式，但最有效的视觉模态取决于具体任务。基于此，我们提出AgentLens——一种在人类-代理交互中自适应使用三种视觉模态（完整UI、部分UI与生成UI）的移动GUI代理。AgentLens通过自适应通信动作扩展标准移动代理，并利用虚拟显示技术实现带选择性视觉叠加的后台执行。在21名参与者参与的对照研究中，85.7%的参与者更倾向选择AgentLens，其可用性（整体PSSUQ评分1.94）与采用意愿（6.43/7）均达最优水平。

0

相关内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

42+阅读 · 2025年10月17日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

少数派

15+阅读 · 2020年6月8日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

11+阅读 · 2019年5月15日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Arxiv

0+阅读 · 5月4日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

Mobile GUI Agents under Real-world Threats: Are We There Yet?

Arxiv

0+阅读 · 4月14日

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Arxiv

0+阅读 · 4月13日

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Arxiv

0+阅读 · 4月13日

MAESTRO: Adapting GUIs and Guiding Navigation with User Preferences in Conversational Agents with GUIs

Arxiv

0+阅读 · 4月7日

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

Arxiv

0+阅读 · 4月7日

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Arxiv

0+阅读 · 3月25日

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Arxiv

0+阅读 · 3月24日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

0+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

1+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

2+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

2+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

0+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

2+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

1+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

7+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

7+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

6+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

5+阅读 · 6月24日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

42+阅读 · 2025年10月17日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

少数派

15+阅读 · 2020年6月8日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

11+阅读 · 2019年5月15日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

相关论文

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Arxiv

0+阅读 · 5月4日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

Mobile GUI Agents under Real-world Threats: Are We There Yet?

Arxiv

0+阅读 · 4月14日

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Arxiv

0+阅读 · 4月13日

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Arxiv

0+阅读 · 4月13日

MAESTRO: Adapting GUIs and Guiding Navigation with User Preferences in Conversational Agents with GUIs

Arxiv

0+阅读 · 4月7日

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

Arxiv

0+阅读 · 4月7日

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Arxiv

0+阅读 · 3月25日

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Arxiv

0+阅读 · 3月24日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员