MacArena: Benchmarking Computer Use Agents on an Online macOS Environment - 专知论文

会员服务 ·

0

基准 · macOS · 在线 · CVPR 2022 · 基准测试 ·

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

翻译：MacArena：在基于在线macOS环境下对计算机使用代理进行基准测试

Victor Muryn,Maksym Shamrai,Sofiia Mazepa,Yehor Khodysko

from arxiv, Accepted to the Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) at ICML 2026

Computer-use agents (CUAs) operate graphical user interfaces (GUIs) through vision and control primitives, and their capabilities have advanced rapidly, driven in part by standardized online evaluation benchmarks such as OSWorld, which serve both as evaluation tools and as training environments for reinforcement learning. However, macOS remains underserved in this landscape: the only existing benchmark, macOSWorld, covers a narrow slice of first-party applications with simpler tasks, and runs on x86 virtual machines incompatible with Apple Silicon. We introduce MacArena, a benchmark of 421 manually verified tasks spanning 50 applications that combines a curated port of OSWorld tasks, content sourced from macOSWorld, and 49 new macOS-native tasks, all running on Apple's native Virtualization framework on Apple Silicon. We argue that macOS presents distinct GUI challenges beyond what Linux-based benchmarks capture, and our evaluation supports this claim: strong model performance on existing benchmarks can reflect familiarity with task distributions rather than genuine cross-platform GUI competence. Notably, model rankings invert between ported and macOS-native tasks, with a leading model trailing by over 26% on the MacArena subset, suggesting that macOS poses a genuinely harder environment for current GUI agents.

翻译：计算机使用代理通过视觉与控制基元操作图形用户界面，其能力在OSWorld等标准化在线评估基准的推动下快速提升——这类基准既作为评估工具，也充当强化学习的训练环境。然而，macOS在此领域中仍缺乏充分支持：现有唯一基准macOSWorld仅覆盖少量原生应用程序的基础任务，且运行在不兼容Apple Silicon的x86虚拟机上。我们提出MacArena基准，包含涵盖50款应用的421个经人工验证的任务。该基准整合了经过适配处理的OSWorld任务、来源于macOSWorld的内容，以及49个原生macOS任务，所有任务均运行在Apple Silicon的Apple原生虚拟化框架上。我们认为macOS展现了Linux类基准无法捕获的独特GUI挑战，实验评估支持这一论断：模型在现有基准上的优异表现可能反映其熟悉任务分布特性，而非真正的跨平台GUI能力。值得注意的是，模型排名在移植任务与原生macOS任务间出现反转，领先模型在MacArena子集上落后超过26%，这表明macOS对当前GUI代理构成更具挑战性的环境。

0

相关内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

如何进行边缘推断？CVPR2023《高效神经网络:从算法设计到实际移动部署》教程, 附slides

如何进行边缘推断？CVPR2023《高效神经网络:从算法设计到实际移动部署》教程, 附slides

专知会员服务

51+阅读 · 2023年7月2日

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

专知会员服务

19+阅读 · 2022年5月6日

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

专知会员服务

37+阅读 · 2022年4月23日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【干货书】深度学习目标检测：原理与应用，276页pdf

【干货书】深度学习目标检测：原理与应用，276页pdf

专知

23+阅读 · 2022年9月24日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

BASNet，一种能关注边缘的显著性检测算法

BASNet，一种能关注边缘的显著性检测算法

极市平台

15+阅读 · 2019年7月19日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

10分钟上手，OpenCV自然场景文本检测（Python代码+实现）

10分钟上手，OpenCV自然场景文本检测（Python代码+实现）

极市平台

12+阅读 · 2018年8月23日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

苹果内在组分与隐性缺陷的透射光谱在线检测基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Arxiv

0+阅读 · 6月15日

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Arxiv

0+阅读 · 6月12日

A History-Aware Visually Grounded Critic for Computer Use Agents

Arxiv

0+阅读 · 6月9日

iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Arxiv

0+阅读 · 6月8日

EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Arxiv

0+阅读 · 6月5日

Asuka-Bench: Benchmarking Code Agents on Underspecified User Intent and Multi-Round Refinement

Arxiv

0+阅读 · 6月4日

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Arxiv

0+阅读 · 5月29日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

5+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

2+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

6+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

8+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

3+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

7+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

5+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

5+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

5+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

3+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

9+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

如何进行边缘推断？CVPR2023《高效神经网络:从算法设计到实际移动部署》教程, 附slides

如何进行边缘推断？CVPR2023《高效神经网络:从算法设计到实际移动部署》教程, 附slides

专知会员服务

51+阅读 · 2023年7月2日

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

专知会员服务

19+阅读 · 2022年5月6日

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

【ICLR 2022】无监督计算机视觉的最新技术：MIT等科学家“通过提取特征对应的无监督语义分割”Unsupervised semantic segmentation by distilling feature correspondences

专知会员服务

37+阅读 · 2022年4月23日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【干货书】深度学习目标检测：原理与应用，276页pdf

【干货书】深度学习目标检测：原理与应用，276页pdf

专知

23+阅读 · 2022年9月24日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

通过Termux打造免root安卓渗透工具

通过Termux打造免root安卓渗透工具

黑客技术与网络安全

16+阅读 · 2019年8月16日

BASNet，一种能关注边缘的显著性检测算法

BASNet，一种能关注边缘的显著性检测算法

极市平台

15+阅读 · 2019年7月19日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

10分钟上手，OpenCV自然场景文本检测（Python代码+实现）

10分钟上手，OpenCV自然场景文本检测（Python代码+实现）

极市平台

12+阅读 · 2018年8月23日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Arxiv

0+阅读 · 6月15日

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Arxiv

0+阅读 · 6月12日

A History-Aware Visually Grounded Critic for Computer Use Agents

Arxiv

0+阅读 · 6月9日

iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Arxiv

0+阅读 · 6月8日

EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Arxiv

0+阅读 · 6月5日

Asuka-Bench: Benchmarking Code Agents on Underspecified User Intent and Multi-Round Refinement

Arxiv

0+阅读 · 6月4日

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Arxiv

0+阅读 · 5月29日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

Arxiv

0+阅读 · 5月8日

相关基金

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

苹果内在组分与隐性缺陷的透射光谱在线检测基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员