We present Minitap, a multi-agent system that achieves 100% success on the AndroidWorld benchmark, the first to fully solve all 116 tasks and surpassing human performance (80%). We first analyze why single-agent architectures fail: context pollution from mixed reasoning traces, silent text input failures undetected by the agent, and repetitive action loops without escape. Minitap addresses each failure through targeted mechanisms: cognitive separation across six specialized agents, deterministic post-validation of text input against device state, and meta-cognitive reasoning that detects cycles and triggers strategy changes. Ablations show multi-agent decomposition contributes +21 points over single-agent baselines; verified execution adds +7 points; meta-cognition adds +9 points. We release Minitap as open-source software. https://github.com/minitap-ai/mobile-use


翻译:我们提出了Minitap,这是一个在AndroidWorld基准测试中实现100%成功率的多智能体系统,首次完全解决了全部116项任务并超越了人类表现(80%)。我们首先分析了单智能体架构失败的原因:混合推理轨迹导致的上下文污染、智能体无法检测的静默文本输入失败,以及无法逃脱的重复动作循环。Minitap通过针对性机制解决每种失败:六个专业智能体间的认知分离、基于设备状态对文本输入的确定性后验证,以及检测循环并触发策略改变的元认知推理。消融实验表明,多智能体分解相比单智能体基线贡献了+21个百分点的提升;验证执行贡献了+7个百分点;元认知贡献了+9个百分点。我们将Minitap作为开源软件发布。https://github.com/minitap-ai/mobile-use

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
56+阅读 · 2025年2月26日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
《多智能体搜索和任务分配的数学建模》92页论文
专知会员服务
115+阅读 · 2023年10月24日
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
关于深度多任务学习的 3 点经验
机器学习算法与Python学习
17+阅读 · 2019年2月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月19日
VIP会员
相关资讯
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
关于深度多任务学习的 3 点经验
机器学习算法与Python学习
17+阅读 · 2019年2月18日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员