Mobile Agents can autonomously execute user instructions, which requires hybrid-capabilities reasoning, including screen summary, subtask planning, action decision and action function. However, existing agents struggle to achieve both decoupled enhancement and balanced integration of these capabilities. To address these challenges, we propose Channel-of-Mobile-Experts (CoME), a novel agent architecture consisting of four distinct experts, each aligned with a specific reasoning stage, CoME activates the corresponding expert to generate output tokens in each reasoning stage via output-oriented activation. To empower CoME with hybrid-capabilities reasoning, we introduce a progressive training strategy: Expert-FT enables decoupling and enhancement of different experts' capability; Router-FT aligns expert activation with the different reasoning stage; CoT-FT facilitates seamless collaboration and balanced optimization across multiple capabilities. To mitigate error propagation in hybrid-capabilities reasoning, we propose InfoGain-Driven DPO (Info-DPO), which uses information gain to evaluate the contribution of each intermediate step, thereby guiding CoME toward more informative reasoning. Comprehensive experiments show that CoME outperforms dense mobile agents and MoE methods on both AITZ and AMEX datasets.


翻译:移动代理能够自主执行用户指令,这需要混合能力推理,包括屏幕摘要、子任务规划、行动决策和行动执行。然而,现有代理难以同时实现这些能力的解耦增强与均衡整合。为解决这些挑战,我们提出了移动专家通道(CoME),这是一种新颖的代理架构,由四位不同的专家组成,每位专家对应一个特定的推理阶段。CoME通过面向输出的激活机制,在每一推理阶段激活相应的专家以生成输出标记。为赋予CoME混合能力推理能力,我们引入了一种渐进式训练策略:专家微调(Expert-FT)实现不同专家能力的解耦与增强;路由微调(Router-FT)使专家激活与不同推理阶段对齐;思维链微调(CoT-FT)促进多能力间的无缝协作与均衡优化。为减轻混合能力推理中的错误传播,我们提出了信息增益驱动的直接偏好优化(Info-DPO),该方法利用信息增益评估每个中间步骤的贡献,从而引导CoME进行信息更丰富的推理。综合实验表明,CoME在AITZ和AMEX数据集上均优于密集移动代理与混合专家方法。

0
下载
关闭预览

相关内容

《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
专知会员服务
90+阅读 · 2021年6月13日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
10+阅读 · 5月25日
Claw AI Lab:从自动写论文到交互式AI研究实验室
专知会员服务
7+阅读 · 5月24日
美以伊冲突中的无人机反防空作战
专知会员服务
9+阅读 · 5月23日
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
7+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
15+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
9+阅读 · 5月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员