User experience (UX) centered on usability, perceived consistency, and functional clarity is fundamental to real-world user interfaces (UI). The application of multimodal large language models (MLLMs) in the field of user interfaces is evolving rapidly, such as visual element grounding, graphical user interface (GUI) agents, and design-to-code generation. However, research efforts on evaluating UX based on UI screenshots are still immature. To address this, we propose UXBench, a novel multimodal benchmark consisting of 2,000 VQA data samples designed to assess MLLMs' ability to perform UI-based reasoning. UXBench includes 8 tasks based on real-world UI screenshots that require fine-grained diagnosis of UX issues across layout relationships, visual hierarchy, and content consistency. Our extensive evaluation of mainstream MLLMs shows that they remain fundamentally limited in their capacity for UI-based reasoning. The results underscore the need for further advancements in this area. To bridge this gap, we propose UI-UX, an MLLM based on Qwen3-VL-4B-Thinking foundation model and enhanced via reinforcement learning with two key innovations: a reward routing mechanism that dynamically balances perceptual understanding and logical reasoning during inference, and an asymmetric transition reward that suppresses redundant or insufficient reasoning steps. Experiments demonstrate that UI-UX achieves state-of-the-art (SOTA) performance on UXBench, attaining an accuracy of 0.7963 -- surpassing Claude-4.5-Sonnet's 0.6550 -- while exhibiting strong generalization across diverse UI tasks and maintaining low inference latency.


翻译:用户体验(UX)以可用性、感知一致性和功能清晰性为核心,是现实世界用户界面(UI)的基础。多模态大语言模型(MLLMs)在用户界面领域的应用正在快速发展,例如视觉元素定位、图形用户界面(GUI)代理以及设计到代码生成。然而,基于UI截图评估用户体验的研究工作仍不成熟。为解决这一问题,我们提出了UXBench,这是一个新颖的多模态基准,包含2000个VQA数据样本,旨在评估MLLMs执行基于UI的推理能力。UXBench包含8个基于真实UI截图的任务,需要对布局关系、视觉层次和内容一致性等方面的用户体验问题进行细粒度诊断。我们对主流MLLMs的广泛评估表明,它们在基于UI的推理能力上仍存在根本性局限。这些结果凸显了在该领域进一步推进的必要性。为弥补这一差距,我们提出了UI-UX,这是一个基于Qwen3-VL-4B-Base基础模型并通过强化学习增强的MLLM,具有两项关键创新:一种奖励路由机制,可在推理过程中动态平衡感知理解与逻辑推理;以及一种非对称过渡奖励,可抑制冗余或不足的推理步骤。实验表明,UI-UX在UXBench上达到了最优(SOTA)性能,准确率达到0.7963——超过了Claude-4.5-Sonnet的0.6550——同时在多样化UI任务中展现出强大的泛化能力,并保持了较低的推理延迟。

0
下载
关闭预览

相关内容

用户体验(User Experience, UX, UE)是用户在使用产品、系统、服务的过程中建立起来的主观心理感受,因为它是纯主观的,就带有一定的不确定因素;而个体差异也決定了每个用户的真实体验是无法通过其他途径来完全模拟或再现的。 用户体验基于个人感受,但在确定的用户群以及使用情景下,反映为群体的共性。这是用户体验研究与设计的基础。
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员