Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding - 专知论文

会员服务 ·

0

设计 · 多模 · 模态 · UI/UX · 多模态 ·

Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding

翻译：多模态大语言模型能否捕捉界面如何引导用户行为？面向多模态UI/UX设计理解的基准研究

Jaehyun Jeon,Min Soo Kim,Jang Han Yoon,Sumin Shim,Yejin Choi,Hanbin Kim,Dae Hyun Kim,Youngjae Yu

from arxiv, 25 pages, 24 figures, Our code and dataset: https://github.com/jeochris/wiserui-bench

User interface (UI) design goes beyond visuals to shape user experience (UX), underscoring the shift toward UI/UX as a unified concept. While recent studies have explored UI evaluation using Multimodal Large Language Models (MLLMs), they largely focus on surface-level features, overlooking how design choices influence user behavior at scale. To fill this gap, we introduce WiserUI-Bench, a novel benchmark for multimodal understanding of how UI/UX design affects user behavior, built on 300 real-world UI image pairs from industry A/B tests, with empirically validated winners that induced more user actions. For future design progress in practice, post-hoc understanding of why such winners succeed with mass users is also required; we support this via expert-curated key interpretations for each instance. Experiments across multiple MLLMs on WiserUI-Bench for two main tasks, (1) predicting the more effective UI image between an A/B-tested pair, and (2) explaining it post-hoc in alignment with expert interpretations, show that models exhibit limited understanding of the behavioral impact of UI/UX design. We believe our work will foster research on leveraging MLLMs for visual design in user behavior contexts.

翻译：用户界面（UI）设计不仅关乎视觉呈现，更塑造着用户体验（UX），这凸显了UI/UX作为统一概念的发展趋势。尽管近期研究已开始利用多模态大语言模型（MLLMs）进行UI评估，但这些工作大多聚焦于表层特征，未能深入考察设计选择如何大规模影响用户行为。为填补这一空白，我们提出了WiserUI-Bench——一个用于多模态理解UI/UX设计如何影响用户行为的新型基准数据集。该数据集基于来自行业A/B测试的300对真实世界UI图像构建，其中包含经实证验证能促使用户执行更多操作的优势设计。为促进未来设计实践的发展，还需对优势设计为何能获得海量用户青睐进行事后归因分析；我们通过为每个实例提供专家精心策划的关键解读来支持这一分析。在WiserUI-Bench上对多个MLLMs进行的两项核心任务实验表明：（1）预测A/B测试图像对中更具效能的UI图像；（2）依据专家解读对预测结果进行事后归因解释，当前模型对UI/UX设计行为影响的理解仍存在局限。我们相信这项工作将推动MLLMs在用户行为语境下的视觉设计应用研究。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

59+阅读 · 2024年5月28日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

33+阅读 · 2024年5月26日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

大模型如何做用户建模？在大型语言模型时代的用户建模：当前研究与未来方向

大模型如何做用户建模？在大型语言模型时代的用户建模：当前研究与未来方向

专知会员服务

46+阅读 · 2023年12月26日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

23+阅读 · 2022年4月12日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【大数据】如何用大数据构建精准用户画像？

【大数据】如何用大数据构建精准用户画像？

产业智能官

12+阅读 · 2017年9月21日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模式情感测量的考虑多维设计特征的产品外观情感设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Arxiv

0+阅读 · 2月5日

AutoGameUI: Constructing High-Fidelity GameUI via Multimodal Correspondence Matching

Arxiv

0+阅读 · 1月27日

UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing

Arxiv

0+阅读 · 1月26日

The Behavioral Fabric of LLM-Powered GUI Agents: Human Values and Interaction Outcomes

Arxiv

0+阅读 · 1月22日

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 1月21日

Privacy Starts with UI: Privacy Patterns and Designer Perspectives in UI/UX Practice

Arxiv

0+阅读 · 1月19日

Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention

Arxiv

0+阅读 · 1月13日

Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training

Arxiv

0+阅读 · 1月12日

Towards Trustworthy Dermatology MLLMs: A Benchmark and Multimodal Evaluator for Diagnostic Narratives

Arxiv

0+阅读 · 1月12日

Empowering Reliable Visual-Centric Instruction Following in MLLMs

Empowering Reliable Visual-Centric Instruction Following in MLLMs

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

9+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

5+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

3+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

3+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

7+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

6+阅读 · 7月25日

相关VIP内容

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

多模态大语言模型在文本丰富图像理解中的应用：全面综述

多模态大语言模型在文本丰富图像理解中的应用：全面综述

专知会员服务

27+阅读 · 2025年3月2日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

从数据中心视角看多模态大型语言模型的综述

从数据中心视角看多模态大型语言模型的综述

专知会员服务

59+阅读 · 2024年5月28日

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

【COLING2024】从多模态大型语言模型到人类水平的人工智能：模态、指令、推理、效率及超越

专知会员服务

33+阅读 · 2024年5月26日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

大模型如何做用户建模？在大型语言模型时代的用户建模：当前研究与未来方向

大模型如何做用户建模？在大型语言模型时代的用户建模：当前研究与未来方向

专知会员服务

46+阅读 · 2023年12月26日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

23+阅读 · 2022年4月12日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【大数据】如何用大数据构建精准用户画像？

【大数据】如何用大数据构建精准用户画像？

产业智能官

12+阅读 · 2017年9月21日

相关论文

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Arxiv

0+阅读 · 2月5日

AutoGameUI: Constructing High-Fidelity GameUI via Multimodal Correspondence Matching

Arxiv

0+阅读 · 1月27日

UI Remix: Supporting UI Design Through Interactive Example Retrieval and Remixing

Arxiv

0+阅读 · 1月26日

The Behavioral Fabric of LLM-Powered GUI Agents: Human Values and Interaction Outcomes

Arxiv

0+阅读 · 1月22日

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 1月21日

Privacy Starts with UI: Privacy Patterns and Designer Perspectives in UI/UX Practice

Arxiv

0+阅读 · 1月19日

Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention

Arxiv

0+阅读 · 1月13日

Seeing Right but Saying Wrong: Inter- and Intra-Layer Refinement in MLLMs without Training

Arxiv

0+阅读 · 1月12日

Towards Trustworthy Dermatology MLLMs: A Benchmark and Multimodal Evaluator for Diagnostic Narratives

Arxiv

0+阅读 · 1月12日

Empowering Reliable Visual-Centric Instruction Following in MLLMs

Empowering Reliable Visual-Centric Instruction Following in MLLMs

Arxiv

0+阅读 · 1月6日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模式情感测量的考虑多维设计特征的产品外观情感设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员