Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents - 专知论文

会员服务 ·

0

Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

翻译：暂无翻译

Suji Kim,Kangsan Kim,Sung Ju Hwang

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.

翻译：暂无翻译

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Al Agent：AI时代的软件革命

Al Agent：AI时代的软件革命

专知会员服务

48+阅读 · 2025年5月13日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

专知会员服务

46+阅读 · 2025年3月9日

Agent视域下的人工智能赋能作战系统

Agent视域下的人工智能赋能作战系统

专知会员服务

58+阅读 · 2024年12月15日

AI终端行业专题：从大模型到智能体，端侧算力助力AI规模化应用

AI终端行业专题：从大模型到智能体，端侧算力助力AI规模化应用

专知会员服务

92+阅读 · 2023年12月9日

作战 Agent 的学习算法研究进展与发展趋势

作战 Agent 的学习算法研究进展与发展趋势

专知会员服务

72+阅读 · 2023年10月3日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

MMDetection v2.0 训练自己的数据集

MMDetection v2.0 训练自己的数据集

CVer

30+阅读 · 2020年8月9日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记

Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记

AINLP

12+阅读 · 2018年11月12日

第8弹：从零开始深度学习(Software篇) | 2017 CS231n

第8弹：从零开始深度学习(Software篇) | 2017 CS231n

AI研习社

41+阅读 · 2017年12月28日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向空间自组网的低功耗理论与技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

ProjGuard: Safety Monitoring for Computer-Use Agents via Low-Dimensional Projections

Arxiv

0+阅读 · 6月10日

Agentic Software: How AI Agents Are Restructuring the Software Paradigm

Arxiv

0+阅读 · 6月10日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

Discovering Agents for Discovery: The Case for DNS

Arxiv

0+阅读 · 6月1日

TClone: Low-Latency Forking of Live GUI Environments for Computer-Use Agents

Arxiv

0+阅读 · 5月17日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 5月12日

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

Arxiv

0+阅读 · 5月12日

MATRA: Modeling the Attack Surface of Agentic AI Systems -- OpenClaw Case Study

Arxiv

0+阅读 · 5月11日

Safactory: A Scalable Agentic Infrastructure for Training Trustworthy Autonomous Intelligence

Arxiv

0+阅读 · 5月8日

SkillOS: Learning Skill Curation for Self-Evolving Agents

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Al Agent：AI时代的软件革命

Al Agent：AI时代的软件革命

专知会员服务

48+阅读 · 2025年5月13日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

专知会员服务

46+阅读 · 2025年3月9日

Agent视域下的人工智能赋能作战系统

Agent视域下的人工智能赋能作战系统

专知会员服务

58+阅读 · 2024年12月15日

AI终端行业专题：从大模型到智能体，端侧算力助力AI规模化应用

AI终端行业专题：从大模型到智能体，端侧算力助力AI规模化应用

专知会员服务

92+阅读 · 2023年12月9日

作战 Agent 的学习算法研究进展与发展趋势

作战 Agent 的学习算法研究进展与发展趋势

专知会员服务

72+阅读 · 2023年10月3日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

MMDetection v2.0 训练自己的数据集

MMDetection v2.0 训练自己的数据集

CVer

30+阅读 · 2020年8月9日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记

Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记

AINLP

12+阅读 · 2018年11月12日

第8弹：从零开始深度学习(Software篇) | 2017 CS231n

第8弹：从零开始深度学习(Software篇) | 2017 CS231n

AI研习社

41+阅读 · 2017年12月28日

相关论文

ProjGuard: Safety Monitoring for Computer-Use Agents via Low-Dimensional Projections

Arxiv

0+阅读 · 6月10日

Agentic Software: How AI Agents Are Restructuring the Software Paradigm

Arxiv

0+阅读 · 6月10日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

Discovering Agents for Discovery: The Case for DNS

Arxiv

0+阅读 · 6月1日

TClone: Low-Latency Forking of Live GUI Environments for Computer-Use Agents

Arxiv

0+阅读 · 5月17日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 5月12日

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

Arxiv

0+阅读 · 5月12日

MATRA: Modeling the Attack Surface of Agentic AI Systems -- OpenClaw Case Study

Arxiv

0+阅读 · 5月11日

Safactory: A Scalable Agentic Infrastructure for Training Trustworthy Autonomous Intelligence

Arxiv

0+阅读 · 5月8日

SkillOS: Learning Skill Curation for Self-Evolving Agents

Arxiv

0+阅读 · 5月7日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向空间自组网的低功耗理论与技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员