Computer use agents (CUAs) have advanced rapidly in desktop automation, and a growing number of users deploy CUAs such as OpenClaw on Mac Mini for always-on automation. However, existing benchmarks, including those for macOS, evaluate agents without framework augmentation and rely on binary evaluation. As a result, they fail to capture both the framework capabilities leveraged by modern CUAs and the partial progress on long-horizon, multi-application tasks. We present MacAgentBench, a comprehensive macOS agent benchmark comprising 676 tasks across 25 applications, with nearly 60% involving both GUI and CLI interaction. The benchmark adopts deterministic rule-based evaluation and introduces fine-grained multi-checkpoint scoring with capability annotations for multi-application tasks. Experiments across three frameworks and 16 models show that the best configuration, Claude Opus 4.6 on OpenClaw, attains 73.7% Pass@1, while this advantage is primarily driven by the skill library rather than by framework design. Fine-grained metrics further reveal that models with similar Pass@1 can differ substantially in sub-goal completion. Our code and data are publicly available at https://github.com/JetAstra/MacAgentBench.


翻译:暂无翻译

0
下载
关闭预览

相关内容

AI原生组织:OpenClaw推动组织形态重塑,47页pdf
专知会员服务
26+阅读 · 3月27日
Agent有望定义万亿劳动力市场
专知会员服务
19+阅读 · 2025年6月11日
Al Agent:AI时代的软件革命
专知会员服务
48+阅读 · 2025年5月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
65+阅读 · 2025年3月12日
再谈工业AI:立足跨模型架构AI中台,落地垂类Agent场景
专知会员服务
46+阅读 · 2025年3月9日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
52+阅读 · 2024年4月18日
AI PC:深入变革PC产业
专知会员服务
49+阅读 · 2023年11月11日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
FaceBoxes—官方开源CPU实时高精度人脸检测器
极市平台
11+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Papers With Code:一文看尽深度学习这半年
极市平台
61+阅读 · 2018年12月3日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
【AI 工程师】掌握这10个项目,秒杀90%面试者!
人工智能头条
13+阅读 · 2017年12月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
AI原生组织:OpenClaw推动组织形态重塑,47页pdf
专知会员服务
26+阅读 · 3月27日
Agent有望定义万亿劳动力市场
专知会员服务
19+阅读 · 2025年6月11日
Al Agent:AI时代的软件革命
专知会员服务
48+阅读 · 2025年5月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
65+阅读 · 2025年3月12日
再谈工业AI:立足跨模型架构AI中台,落地垂类Agent场景
专知会员服务
46+阅读 · 2025年3月9日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
52+阅读 · 2024年4月18日
AI PC:深入变革PC产业
专知会员服务
49+阅读 · 2023年11月11日
相关资讯
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
FaceBoxes—官方开源CPU实时高精度人脸检测器
极市平台
11+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Papers With Code:一文看尽深度学习这半年
极市平台
61+阅读 · 2018年12月3日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
【AI 工程师】掌握这10个项目,秒杀90%面试者!
人工智能头条
13+阅读 · 2017年12月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员