CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning - 专知论文

会员服务 ·

0

混合 · 通道 · FT · 微调 · 移动代理 ·

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

翻译：CoME：赋能移动专家通道，实现信息丰富的混合能力推理

Yuxuan Liu,Weikai Xu,Kun Huang,Changyu Chen,Jiankun Zhao,Pengzhi Gao,Wei Liu,Jian Luan,Shuo Shang,Bo Du,Ji-Rong Wen,Rui Yan

Mobile Agents can autonomously execute user instructions, which requires hybrid-capabilities reasoning, including screen summary, subtask planning, action decision and action function. However, existing agents struggle to achieve both decoupled enhancement and balanced integration of these capabilities. To address these challenges, we propose Channel-of-Mobile-Experts (CoME), a novel agent architecture consisting of four distinct experts, each aligned with a specific reasoning stage, CoME activates the corresponding expert to generate output tokens in each reasoning stage via output-oriented activation. To empower CoME with hybrid-capabilities reasoning, we introduce a progressive training strategy: Expert-FT enables decoupling and enhancement of different experts' capability; Router-FT aligns expert activation with the different reasoning stage; CoT-FT facilitates seamless collaboration and balanced optimization across multiple capabilities. To mitigate error propagation in hybrid-capabilities reasoning, we propose InfoGain-Driven DPO (Info-DPO), which uses information gain to evaluate the contribution of each intermediate step, thereby guiding CoME toward more informative reasoning. Comprehensive experiments show that CoME outperforms dense mobile agents and MoE methods on both AITZ and AMEX datasets.

翻译：移动代理能够自主执行用户指令，这需要混合能力推理，包括屏幕摘要、子任务规划、行动决策和行动执行。然而，现有代理难以同时实现这些能力的解耦增强与均衡整合。为解决这些挑战，我们提出了移动专家通道（CoME），这是一种新颖的代理架构，由四位不同的专家组成，每位专家对应一个特定的推理阶段。CoME通过面向输出的激活机制，在每一推理阶段激活相应的专家以生成输出标记。为赋予CoME混合能力推理能力，我们引入了一种渐进式训练策略：专家微调（Expert-FT）实现不同专家能力的解耦与增强；路由微调（Router-FT）使专家激活与不同推理阶段对齐；思维链微调（CoT-FT）促进多能力间的无缝协作与均衡优化。为减轻混合能力推理中的错误传播，我们提出了信息增益驱动的直接偏好优化（Info-DPO），该方法利用信息增益评估每个中间步骤的贡献，从而引导CoME进行信息更丰富的推理。综合实验表明，CoME在AITZ和AMEX数据集上均优于密集移动代理与混合专家方法。

0

相关内容

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

专知会员服务

15+阅读 · 3月17日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

《动态数据融合中的可靠推理》美空军研究实验室23页报告

《动态数据融合中的可靠推理》美空军研究实验室23页报告

专知会员服务

78+阅读 · 2023年3月31日

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

专知会员服务

25+阅读 · 2022年5月5日

知识图谱多跳问答推理研究进展、挑战与展望

专知会员服务

90+阅读 · 2021年6月13日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

103+阅读 · 2022年4月7日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

突发灾难环境下混合式移动社会网络的消息分发机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超云平台的社会化移动网络大数据管理与分析关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

InCoM: Intent-Driven Perception and Structured Coordination for Mobile Manipulation

Arxiv

0+阅读 · 4月27日

Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns

Arxiv

0+阅读 · 4月25日

AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents

Arxiv

0+阅读 · 4月22日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

Beyond Static Forecasting: Unleashing the Power of World Models for Mobile Traffic Extrapolation

Arxiv

0+阅读 · 4月9日

Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

Arxiv

0+阅读 · 3月29日

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Arxiv

0+阅读 · 3月6日

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Arxiv

0+阅读 · 3月6日

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Arxiv

0+阅读 · 2月27日

ClawMobile: Rethinking Smartphone-Native Agentic Systems

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

最新内容

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

10+阅读 · 5月25日

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

4+阅读 · 5月25日

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

4+阅读 · 5月24日

Claw AI Lab：从自动写论文到交互式AI研究实验室

Claw AI Lab：从自动写论文到交互式AI研究实验室

专知会员服务

7+阅读 · 5月24日

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

专知会员服务

12+阅读 · 5月24日

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

专知会员服务

8+阅读 · 5月23日

美以伊冲突中的无人机反防空作战

美以伊冲突中的无人机反防空作战

专知会员服务

9+阅读 · 5月23日

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

7+阅读 · 5月22日

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

9+阅读 · 5月22日

安杜里尔与Meta研发军用智能眼镜的内幕

安杜里尔与Meta研发军用智能眼镜的内幕

专知会员服务

7+阅读 · 5月22日

《GPS拒止环境中的网络化赋能目标锁定》总结报告

《GPS拒止环境中的网络化赋能目标锁定》总结报告

专知会员服务

10+阅读 · 5月22日

超越步调威胁：整合人工智能以加速指挥决策

超越步调威胁：整合人工智能以加速指挥决策

专知会员服务

15+阅读 · 5月22日

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

专知会员服务

13+阅读 · 5月22日

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

9+阅读 · 5月21日

相关VIP内容

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

专知会员服务

15+阅读 · 3月17日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

《动态数据融合中的可靠推理》美空军研究实验室23页报告

《动态数据融合中的可靠推理》美空军研究实验室23页报告

专知会员服务

78+阅读 · 2023年3月31日

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

专知会员服务

25+阅读 · 2022年5月5日

知识图谱多跳问答推理研究进展、挑战与展望

专知会员服务

90+阅读 · 2021年6月13日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

Claw AI Lab：从自动写论文到交互式AI研究实验室

“史诗怒火”行动中的无人机与反无人机作战

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

相关资讯

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

【AI+军事】《AI/ML在支持混合军事行动中情报和目标定位方面的优势和挑战》加拿大国防研究和发展部

专知

103+阅读 · 2022年4月7日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

InCoM: Intent-Driven Perception and Structured Coordination for Mobile Manipulation

Arxiv

0+阅读 · 4月27日

Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns

Arxiv

0+阅读 · 4月25日

AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents

Arxiv

0+阅读 · 4月22日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

Beyond Static Forecasting: Unleashing the Power of World Models for Mobile Traffic Extrapolation

Arxiv

0+阅读 · 4月9日

Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

Arxiv

0+阅读 · 3月29日

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Arxiv

0+阅读 · 3月6日

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

Arxiv

0+阅读 · 3月6日

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Arxiv

0+阅读 · 2月27日

ClawMobile: Rethinking Smartphone-Native Agentic Systems

Arxiv

0+阅读 · 2月26日

相关基金

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

突发灾难环境下混合式移动社会网络的消息分发机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超云平台的社会化移动网络大数据管理与分析关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

移动互联网环境下O2O渠道整合与交互模式对顾客忠诚的影响：基于顾客体验视角

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员