Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition - 专知论文

会员服务 ·

0

分解 · 智能体 · 多智能体 · 任务分解 · 准确率 ·

Do Multi-Agents Dream of Electric Screens? Achieving Perfect Accuracy on AndroidWorld Through Task Decomposition

翻译：多智能体是否梦想着电子屏幕？通过任务分解在AndroidWorld上实现完美准确率

Pierre-Louis Favreau,Jean-Pierre Lo,Clement Guiguet,Charles Simon-Meunier,Nicolas Dehandschoewercker,Allen G. Roush,Judah Goldfeder,Ravid Shwartz-Ziv

We present Minitap, a multi-agent system that achieves 100% success on the AndroidWorld benchmark, the first to fully solve all 116 tasks and surpassing human performance (80%). We first analyze why single-agent architectures fail: context pollution from mixed reasoning traces, silent text input failures undetected by the agent, and repetitive action loops without escape. Minitap addresses each failure through targeted mechanisms: cognitive separation across six specialized agents, deterministic post-validation of text input against device state, and meta-cognitive reasoning that detects cycles and triggers strategy changes. Ablations show multi-agent decomposition contributes +21 points over single-agent baselines; verified execution adds +7 points; meta-cognition adds +9 points. We release Minitap as open-source software. https://github.com/minitap-ai/mobile-use

翻译：我们提出了Minitap，这是一个在AndroidWorld基准测试中实现100%成功率的多智能体系统，首次完全解决了全部116项任务并超越了人类表现（80%）。我们首先分析了单智能体架构失败的原因：混合推理轨迹导致的上下文污染、智能体无法检测的静默文本输入失败，以及无法逃脱的重复动作循环。Minitap通过针对性机制解决每种失败：六个专业智能体间的认知分离、基于设备状态对文本输入的确定性后验证，以及检测循环并触发策略改变的元认知推理。消融实验表明，多智能体分解相比单智能体基线贡献了+21个百分点的提升；验证执行贡献了+7个百分点；元认知贡献了+9个百分点。我们将Minitap作为开源软件发布。https://github.com/minitap-ai/mobile-use

0

相关内容

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

32+阅读 · 2025年8月7日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

27+阅读 · 2025年5月7日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

专知会员服务

21+阅读 · 2025年1月15日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

《多智能体搜索和任务分配的数学建模》92页论文

《多智能体搜索和任务分配的数学建模》92页论文

专知会员服务

116+阅读 · 2023年10月24日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【DeepMind】多智能体学习231页PPT总结

【DeepMind】多智能体学习231页PPT总结

深度强化学习实验室

16+阅读 · 2020年6月23日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

关于深度多任务学习的 3 点经验

关于深度多任务学习的 3 点经验

机器学习算法与Python学习

17+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有输入饱和的多智能体系统的包含控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

Arxiv

0+阅读 · 3月12日

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Arxiv

0+阅读 · 3月3日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月13日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月12日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月11日

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Arxiv

0+阅读 · 2月11日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

Making Videos Accessible for Blind and Low Vision Users Using a Multimodal Agent Video Player

Arxiv

0+阅读 · 2月4日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

3+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

4+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

3+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

2+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

32+阅读 · 2025年8月7日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

27+阅读 · 2025年5月7日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

专知会员服务

21+阅读 · 2025年1月15日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

《多智能体搜索和任务分配的数学建模》92页论文

《多智能体搜索和任务分配的数学建模》92页论文

专知会员服务

116+阅读 · 2023年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【DeepMind】多智能体学习231页PPT总结

【DeepMind】多智能体学习231页PPT总结

深度强化学习实验室

16+阅读 · 2020年6月23日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

关于深度多任务学习的 3 点经验

关于深度多任务学习的 3 点经验

机器学习算法与Python学习

17+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

相关论文

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

Arxiv

0+阅读 · 3月12日

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Arxiv

0+阅读 · 3月3日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月13日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月12日

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Arxiv

0+阅读 · 2月11日

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Arxiv

0+阅读 · 2月11日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

Making Videos Accessible for Blind and Low Vision Users Using a Multimodal Agent Video Player

Arxiv

0+阅读 · 2月4日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

相关基金

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有输入饱和的多智能体系统的包含控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员