Ensuring usability is crucial for the success of mobile apps. Usability issues can compromise user experience and negatively impact the perceived app quality. This paper presents UX-LLM, a novel tool powered by a Large Vision-Language Model that predicts usability issues in iOS apps. To evaluate the performance of UX-LLM, we predicted usability issues in two open-source apps of a medium complexity and asked two usability experts to assess the predictions. We also performed traditional usability testing and expert review for both apps and compared the results to those of UX-LLM. UX-LLM demonstrated precision ranging from 0.61 and 0.66 and recall between 0.35 and 0.38, indicating its ability to identify valid usability issues, yet failing to capture the majority of issues. Finally, we conducted a focus group with an app development team of a capstone project developing a transit app for visually impaired persons. The focus group expressed positive perceptions of UX-LLM as it identified unknown usability issues in their app. However, they also raised concerns about its integration into the development workflow, suggesting potential improvements. Our results show that UX-LLM cannot fully replace traditional usability evaluation methods but serves as a valuable supplement particularly for small teams with limited resources, to identify issues in less common user paths, due to its ability to inspect the source code.


翻译:确保可用性对移动应用的成功至关重要。可用性问题可能损害用户体验并对应用感知质量产生负面影响。本文提出UX-LLM——一种基于大型视觉语言模型的新型工具,用于预测iOS应用中的可用性问题。为评估UX-LLM的性能,我们在两个中等复杂度的开源应用中预测可用性问题,并邀请两位可用性专家对预测结果进行评估。同时,我们对两款应用进行了传统可用性测试和专家评审,并将结果与UX-LLM的预测进行对比。UX-LLM的精确度介于0.61至0.66之间,召回率在0.35至0.38范围内,表明其具备识别有效可用性问题的能力,但未能捕捉大部分问题。最后,我们与一个开发视障人士交通应用的毕业设计项目团队进行了焦点小组讨论。该小组对UX-LLM持积极态度,因其发现了他们应用中未知的可用性问题,但也对其融入开发流程提出疑虑,并建议潜在改进方向。研究结果表明,UX-LLM虽不能完全取代传统可用性评估方法,但由于其能够检查源代码,可作为有价值的补充工具,特别适用于资源有限的小型团队识别非常见用户路径中的问题。

0
下载
关闭预览

相关内容

【ICML2025】立场:我们需要对生成式人工智能的算法理解
【新书】使用生成式人工智能进行软件测试
专知会员服务
44+阅读 · 2025年1月6日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
可解释AI(XAI)工具集—DrWhy
专知
25+阅读 · 2019年6月4日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员