Computer-use agents (CUAs) automate on-screen work, as illustrated by GPT-5.4 and Claude. Yet their reliability on complex, low-frequency interactions is still poor, limiting user trust. Our analysis of failure cases from advanced models suggests a long-tail pattern in GUI operations, where a relatively small fraction of complex and diverse interactions accounts for a disproportionate share of task failures. We hypothesize that this issue largely stems from the scarcity of data for complex interactions. To address this problem, we propose a new benchmark CUActSpot for evaluating models' capabilities on complex interactions across five modalities: GUI, text, table, canvas, and natural image, as well as a variety of actions (click, drag, draw, etc.), covering a broader range of interaction types than prior click-centric benchmarks that focus mainly on GUI widgets. We also design a renderer-based data-synthesis pipeline: scenes are automatically generated for each modality, screenshots and element coordinates are recorded, and an LLM produces matching instructions and action traces. After training on this corpus, our Phi-Ground-Any-4B outperforms open-source models with fewer than 32B parameters. We will release our benchmark, data, code, and models at https://github.com/microsoft/Phi-Ground.git


翻译:计算机使用代理(CUAs)能够自动化屏幕操作,如GPT-5.4和Claude所示。然而,它们在复杂、低频交互中的可靠性仍然较差,这限制了用户的信任。我们对先进模型失败案例的分析表明,GUI操作中存在长尾模式,即一小部分复杂多样的交互导致了不成比例的任务失败。我们假设这一问题主要源于复杂交互数据的稀缺性。为解决此问题,我们提出了一个新基准CUActSpot,用于评估模型在五种模态(GUI、文本、表格、画布和自然图像)及多种动作(点击、拖拽、绘制等)上的复杂交互能力,覆盖了比以往主要关注GUI控件的点击中心基准更广泛的交互类型。我们还设计了一个基于渲染器的数据合成流水线:为每种模态自动生成场景,记录截图和元素坐标,并由大语言模型(LLM)生成匹配的指令和动作轨迹。在此语料库训练后,我们的Phi-Ground-Any-4B模型在性能上优于参数量小于32B的开源模型。我们将于https://github.com/microsoft/Phi-Ground.git发布我们的基准、数据、代码和模型。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
64+阅读 · 2021年8月27日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月1日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员