Accurate mobile user interface annotation is important for UI understanding, accessibility tools, automated testing, dataset construction, and GUI agents. However, mobile screens are difficult to annotate because they often contain small, dense, nested, and visually ambiguous elements. Multimodal large language models can help automate this process, but their outputs are sensitive to prompt design and the organization of annotation tasks. This paper studies automated mobile UI annotation from a workflow design perspective, focusing on improving annotation precision. Rather than asking the model to annotate all UI elements in a single step, the task is divided into smaller context-aware stages, allowing related UI elements to be handled with clearer instructions and useful screen context. The proposed pipeline uses structured prompts, schema-constrained JSON outputs, and element-specific annotation instructions. Experiments are conducted on expert-annotated mobile UI screens from the MUIAnno dataset, using eight common UI element types: button, tab, clickable text, card, label, plain text, icon, and image. Four workflow strategies are evaluated: one-step, two-step, four-step, and eight-step annotation. Results show that the two-step workflow achieves the highest precision, while deeper decomposition improves recall but produces more false positives. Additional grouping experiments show that annotation quality depends on both workflow depth and element-class grouping. Overall, careful workflow design can make LLM-based mobile UI annotation more reliable for UI understanding, dataset construction, and GUI agent development.


翻译:精确的移动用户界面标注对于界面理解、无障碍工具、自动化测试、数据集构建以及图形用户界面代理至关重要。然而,移动屏幕由于包含密集、嵌套且视觉模糊的小尺寸元素,标注难度较大。多模态大语言模型可协助自动化这一过程,但其输出结果对提示设计及标注任务的组织方式较为敏感。本文从工作流设计视角出发,研究自动化移动界面标注,重点关注提升标注精度。通过将标注任务分解为多个情境感知的小型阶段,而非要求模型在单一步骤中完成所有界面元素的标注,使得相关界面元素能够依托更清晰的指令与有效的屏幕上下文进行处理。所提出的流水线采用结构化提示、模式约束的JSON输出以及元素特定标注指令。实验基于MUIAnno数据集中经专家标注的移动界面屏幕,涵盖八种常见界面元素类型:按钮、标签页、可点击文本、卡片、标签、纯文本、图标及图像。我们评估了四种工作流策略:一步、两步、四步及八步标注。结果显示,两步工作流实现了最高精确率,而更深度的分解虽提高了召回率,但产生了更多误检。额外分组实验表明,标注质量同时取决于工作流深度与元素类别分组。总体而言,精细的工作流设计可提升基于大语言模型的移动界面标注在界面理解、数据集构建及图形用户界面代理开发中的可靠性。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
专知会员服务
39+阅读 · 2020年12月14日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关资讯
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员