Usability describes quality attributes of application user interfaces that determine how effectively users can interact with them. Traditional usability evaluation methods require considerable expertise and resources, which can be challenging, especially for small teams and organizations. Automating usability evaluation could make it more accessible and help to improve the user experience. The recent emergence of powerful multimodal large language models (MLLMs) has opened new opportunities for automating usability evaluation and recommendation of improvements. These models can process visual inputs such as images and videos alongside textual context, which enables the identification of usability issues and the generation of actionable suggestions to resolve these issues. In this paper, we present a novel automated approach that uses limited application context and screen recordings of user interactions as input to an MLLM. The model automatically identifies and describes usability issues based on Nielsens usability heuristics, and provides corresponding explanations and improvement recommendations. To reduce the developer effort of manual prioritization, the recommendations are ranked by severity. The quality and practical usefulness of the generated recommendations were evaluated based on a user study that involved software engineers as participants. The evaluation focused on the highest-ranked suggestions provided by the model. The results demonstrate the potential of our approach to provide low-effort usability improvement recommendations. This makes it a promising complement to traditional evaluation methods, especially in settings with limited access to usability experts. In this sense, the approach serves as a basis for future integration into development tools to enable automated usability evaluation within software engineering workflows.


翻译:可用性描述了应用程序用户界面的质量属性,这些属性决定了用户与界面交互的有效性。传统的可用性评估方法需要大量专业知识和资源,这对小型团队和组织而言尤其具有挑战性。自动化可用性评估可降低使用门槛,助力提升用户体验。近年来,强大的多模态大语言模型(MLLMs)的出现为自动化可用性评估与改进建议开辟了新机遇。这类模型能处理图像、视频等视觉输入及其文本上下文信息,从而识别可用性问题并生成可操作的改进方案。本文提出一种新颖的自动化方法,将有限的应用程序上下文和用户交互屏幕录制作为MLLM的输入。该模型基于尼尔森可用性启发式准则自动识别并描述可用性问题,提供相应的解释与改进建议。为减少开发者手动确定优先级的负担,建议按严重程度排序。通过一项包含软件工程师参与者的用户研究,评估了所生成建议的质量与实际效用,重点考察模型提供的优先级最高的建议。结果表明,该方法具备提供低投入可用性改进建议的潜力,可作为传统评估方法的有力补充,尤其适用于缺乏可用性专家的场景。基于此,该技术可为未来集成至开发工具奠定基础,从而实现软件工程工作流程中的自动化可用性评估。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【综述】 基于大语言模型的对话用户模拟综述
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员