Generative AI is being leveraged to solve a variety of computer-use tasks involving desktop applications. State-of-the-art systems have focused solely on improving accuracy on leading benchmarks. However, these systems are practically unusable due to extremely high end-to-end latency (e.g., tens of minutes) for tasks that typically take humans just a few minutes to complete. To understand the cause behind this and to guide future developments of computer agents, we conduct the first study on the temporal performance of computer-use agents on OSWorld, the flagship benchmark in computer-use AI. We find that large model calls for planning, reflection, and judging account for most of the overall latency, and as an agent uses more steps to complete a task, each successive step can take 3x longer than steps at the beginning of a task. We then construct OSWorld Human, a manually annotated version of the original OSWorld dataset that contains a human-determined trajectory for each task. We evaluate 16 agents on their efficiency using OSWorld Human and found that even the best agents take 2.7-4.3x more steps than necessary.


翻译:生成式人工智能正被用于解决涉及桌面应用程序的各类计算机使用任务。现有最先进的系统仅专注于提升主要基准测试的准确率。然而,这些系统在处理人类通常只需几分钟即可完成的任务时,由于端到端延迟极高(例如数十分钟),实际上并不可用。为探究这一现象的原因并指导计算机智能体的未来发展,我们首次针对OSWorld(计算机使用人工智能领域的旗舰基准测试)上计算机使用智能体的时间性能展开研究。我们发现,用于规划、反思和判断的大型模型调用占据了整体延迟的大部分,并且随着智能体为完成任务而使用更多步骤,每一步的耗时可能比任务初始步骤长3倍。随后,我们构建了OSWorld-Human——原始OSWorld数据集的手工注释版本,其中包含每项任务的人类确定轨迹。我们使用OSWorld-Human评估了16个智能体的效率,发现即便是最优智能体,其执行步骤也比必要步骤多出2.7至4.3倍。

0
下载
关闭预览

相关内容

通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
【新书】使用生成式人工智能进行软件测试
专知会员服务
45+阅读 · 2025年1月6日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
【新书】使用AI智能体构建应用程序
专知会员服务
61+阅读 · 2024年10月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《利用人工智能应对全球挑战》63页报告
专知会员服务
27+阅读 · 2024年8月14日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 32分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 49分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
【新书】使用生成式人工智能进行软件测试
专知会员服务
45+阅读 · 2025年1月6日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
【新书】使用AI智能体构建应用程序
专知会员服务
61+阅读 · 2024年10月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《利用人工智能应对全球挑战》63页报告
专知会员服务
27+阅读 · 2024年8月14日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员