Recent advances have enabled general computer-use agents that interpret screens and execute grounded actions from human instructions, yet they still struggle to generalize to unseen and evolving interfaces. While improving agent capability remains important, agent compatible interface design offers a complementary path by aligning interaction semantics with agent prior knowledge. In this paper, we revisit Nielsen 10 usability heuristics through the lens of computer-use agents, identifying which principles naturally transfer, where implicit design assumptions create agent specific failures, and how safe additive augmentations can improve robustness without harming human usability. To evaluate these ideas, we introduce UI-Verse, a suite of controlled environments built around functionally similar interfaces with different applied heuristics. Experiments show that our augmented heuristics consistently improve task completion and modestly improve efficiency, with combined heuristics yielding further gains. Human studies further show that these designs preserve the original interaction workflow without observable usability regressions. Overall, our findings highlight interface design as a practical complementary avenue for improving the reliability and generalization of computer use agents.


翻译:近期研究进展使得通用计算机使用代理得以实现,这类代理能够解析屏幕内容并根据人类指令执行基于环境的操作,但它们在泛化到未见过的动态界面时仍存在困难。尽管提升代理能力至关重要,但通过使交互语义与代理先验知识对齐,代理兼容性界面设计提供了一条互补路径。本文从计算机使用代理的视角重新审视了尼尔森十条可用性启发式原则,识别出哪些原则可自然迁移、隐性设计假设如何导致代理特定失效,以及安全增强性修改如何在保持人类可用性的同时提升稳健性。为验证这些假设,我们构建了UI-Verse环境套件,该套件围绕功能相似但应用不同启发式原则的界面设计而成。实验表明,增强后的启发式原则持续提升任务完成率并适度改善效率,组合使用多种原则可进一步获得增益。人类用户研究进一步证实,这些设计保留了原始交互流程,且未出现可观测的可用性退化。总体而言,我们的研究揭示了界面设计作为提升计算机使用代理可靠性与泛化能力的实用互补途径。

0
下载
关闭预览

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
14+阅读 · 2025年11月18日
视觉通用模型综述
专知会员服务
28+阅读 · 2025年6月12日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
25+阅读 · 2018年5月18日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
25+阅读 · 2018年5月18日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员