D-Artemis：一种用于移动图形用户界面多智能体的审慎认知框架 (D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents) - 专知论文

会员服务 ·

0

图形用户界面 · 智能体 · 对齐 · 多智能体 · 用户交互 ·

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

翻译：D-Artemis：一种用于移动图形用户界面多智能体的审慎认知框架

Hongze Mi,Yibo Feng,Wenjie Lu,Yuqi Wang,Jinyuan Li,Song Cao,He Cui,Tengfei Tian,Xuelin Zhang,Haotian Luo,Di Sun,Naiqiang Tan,Gang Pan

Graphical User Interface (GUI) agents aim to automate a wide spectrum of human tasks by emulating user interaction. Despite rapid advancements, current approaches are hindered by several critical challenges: data bottleneck in end-to-end training, high cost of delayed error detection, and risk of contradictory guidance. Inspired by the human cognitive loop of Thinking, Alignment, and Reflection, we present D-Artemis -- a novel deliberative framework in this paper. D-Artemis leverages a fine-grained, app-specific tip retrieval mechanism to inform its decision-making process. It also employs a proactive Pre-execution Alignment stage, where Thought-Action Consistency (TAC) Check module and Action Correction Agent (ACA) work in concert to mitigate the risk of execution failures. A post-execution Status Reflection Agent (SRA) completes the cognitive loop, enabling strategic learning from experience. Crucially, D-Artemis enhances the capabilities of general-purpose Multimodal large language models (MLLMs) for GUI tasks without the need for training on complex trajectory datasets, demonstrating strong generalization. D-Artemis establishes new state-of-the-art (SOTA) results across both major benchmarks, achieving a 75.8% success rate on AndroidWorld and 96.8% on ScreenSpot-V2. Extensive ablation studies further demonstrate the significant contribution of each component to the framework.

翻译：图形用户界面（GUI）智能体旨在通过模拟用户交互来自动化广泛的人类任务。尽管进展迅速，但当前方法仍受限于几个关键挑战：端到端训练中的数据瓶颈、延迟错误检测的高成本以及矛盾指令的风险。受人类“思考、对齐与反思”认知循环的启发，本文提出了D-Artemis——一种新颖的审慎框架。D-Artemis利用细粒度的、特定于应用程序的提示检索机制来为其决策过程提供信息。它还采用主动的预执行对齐阶段，其中“思想-行动一致性”（TAC）检查模块与行动校正智能体（ACA）协同工作，以降低执行失败的风险。执行后的状态反思智能体（SRA）则完成了认知循环，实现了从经验中进行策略性学习。至关重要的是，D-Artemis增强了通用多模态大语言模型（MLLMs）处理GUI任务的能力，而无需在复杂的轨迹数据集上进行训练，展现了强大的泛化能力。D-Artemis在两大主要基准测试中均取得了新的最先进（SOTA）成果，在AndroidWorld上实现了75.8%的成功率，在ScreenSpot-V2上实现了96.8%的成功率。广泛的消融研究进一步证明了框架中每个组件的重要贡献。

0

相关内容

图形用户界面

图形用户界面

图形用户界面（Graphical User Interface，简称 GUI，又称图形用户接口）是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比，图形界面对于用户来说在视觉上更易于接受。

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

多模态移动智能体的基础与最新趋势：综述

多模态移动智能体的基础与最新趋势：综述

专知会员服务

37+阅读 · 2024年11月6日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

47+阅读 · 2023年3月20日

知识图嵌入和可解释人工智能 Knowledge Graph Embeddings and Explainable AI

知识图嵌入和可解释人工智能 Knowledge Graph Embeddings and Explainable AI

专知会员服务

136+阅读 · 2020年5月1日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

Arxiv

0+阅读 · 1月29日

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Arxiv

0+阅读 · 1月28日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

Arxiv

0+阅读 · 1月26日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

MobileDreamer: Generative Sketch World Model for GUI Agent

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

图形用户界面

相关VIP内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

多模态移动智能体的基础与最新趋势：综述

多模态移动智能体的基础与最新趋势：综述

专知会员服务

37+阅读 · 2024年11月6日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

47+阅读 · 2023年3月20日

知识图嵌入和可解释人工智能 Knowledge Graph Embeddings and Explainable AI

知识图嵌入和可解释人工智能 Knowledge Graph Embeddings and Explainable AI

专知会员服务

136+阅读 · 2020年5月1日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

相关论文

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

Arxiv

0+阅读 · 1月29日

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Arxiv

0+阅读 · 1月28日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

Arxiv

0+阅读 · 1月26日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

MobileDreamer: Generative Sketch World Model for GUI Agent

Arxiv

0+阅读 · 1月7日

相关基金

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员