Improving User Interface Generation Models from Designer Feedback - 专知论文

会员服务 ·

0

设计 · 生成模型 · 排序 · 交互 · 语言模型 ·

Improving User Interface Generation Models from Designer Feedback

翻译：基于设计师反馈改进用户界面生成模型

Jason Wu,Amanda Swearngin,Arun Krishna Vajjala,Alan Leung,Jeffrey Nichols,Titus Barik

from arxiv, Version accepted to CHI 2026

Despite being trained on vast amounts of data, most LLMs are unable to reliably generate well-designed UIs. Designer feedback is essential to improving performance on UI generation; however, we find that existing RLHF methods based on ratings or rankings are not well-aligned with with designers' workflows and ignore the rich rationale used to critique and improve UI designs. In this paper, we investigate several approaches for designers to give feedback to UI generation models, using familiar interactions such as commenting, sketching and direct manipulation. We first perform an evaluation with 21 designers where they gave feedback using these interactions, which resulted in 1500 design annotations. We then use this data to finetune a series of LLMs to generate higher quality UIs. Finally, we evaluate these models with human judges, and we find that our designer-aligned approaches outperform models trained with traditional ranking feedback and all tested baselines, including GPT-5.

翻译：尽管经过海量数据训练，大多数大语言模型仍无法可靠地生成设计精良的用户界面。设计师反馈对于提升UI生成性能至关重要；然而，我们发现现有的基于评分或排序的RLHF方法与设计师工作流程契合度不足，且忽略了用于批判和改进UI设计的丰富原理。本文研究了设计师通过评论、草图绘制和直接操作等熟悉交互方式向UI生成模型提供反馈的多种途径。我们首先对21名设计师开展评估实验，收集其通过上述交互方式提供的反馈，共获得1500条设计标注数据。随后利用该数据对一系列大语言模型进行微调，以生成更高质量的UI设计。最终通过人工评估验证，我们发现与设计师工作流对齐的方法在性能上优于基于传统排序反馈训练的模型及所有测试基线（包括GPT-5）。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

专知会员服务

74+阅读 · 2023年10月6日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

【斯坦福博士论文】面向人机交互的语言模型设计与评估

【斯坦福博士论文】面向人机交互的语言模型设计与评估

专知会员服务

38+阅读 · 2023年7月9日

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

专知会员服务

26+阅读 · 2023年6月6日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

模型不work怎么办？141页PPT告诉你怎么改模型

模型不work怎么办？141页PPT告诉你怎么改模型

专知

17+阅读 · 2019年10月31日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

看完后，别再说自己不懂用户画像了

看完后，别再说自己不懂用户画像了

R语言中文社区

15+阅读 · 2017年8月28日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

Arxiv

0+阅读 · 3月4日

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

Arxiv

0+阅读 · 3月4日

What Makes a Reward Model a Good Teacher? An Optimization Perspective

Arxiv

0+阅读 · 2月27日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

Towards Active Synthetic Data Generation for Finetuning Language Models

Arxiv

0+阅读 · 2月9日

Bridging Gulfs in UI Generation through Semantic Guidance

Arxiv

0+阅读 · 2月9日

Improve Large Language Model Systems with User Logs

Arxiv

0+阅读 · 2月6日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Feedback by Design: Understanding and Overcoming User Feedback Barriers in Conversational Agents

Arxiv

0+阅读 · 2月1日

Integrating Multi-Label Classification and Generative AI for Scalable Analysis of User Feedback

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

7+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

24+阅读 · 2024年8月17日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

专知会员服务

74+阅读 · 2023年10月6日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

【斯坦福博士论文】面向人机交互的语言模型设计与评估

【斯坦福博士论文】面向人机交互的语言模型设计与评估

专知会员服务

38+阅读 · 2023年7月9日

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

【KDD2023】TransAct: 基于Transformer的实时用户行为模型在Pinterest的推荐系统中的应用

专知会员服务

26+阅读 · 2023年6月6日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

模型不work怎么办？141页PPT告诉你怎么改模型

模型不work怎么办？141页PPT告诉你怎么改模型

专知

17+阅读 · 2019年10月31日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

基于LSTM模型的学生反馈文本学业情绪识别方法

基于LSTM模型的学生反馈文本学业情绪识别方法

MOOC

17+阅读 · 2019年5月18日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

看完后，别再说自己不懂用户画像了

看完后，别再说自己不懂用户画像了

R语言中文社区

15+阅读 · 2017年8月28日

相关论文

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

Arxiv

0+阅读 · 3月4日

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

Arxiv

0+阅读 · 3月4日

What Makes a Reward Model a Good Teacher? An Optimization Perspective

Arxiv

0+阅读 · 2月27日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

Towards Active Synthetic Data Generation for Finetuning Language Models

Arxiv

0+阅读 · 2月9日

Bridging Gulfs in UI Generation through Semantic Guidance

Arxiv

0+阅读 · 2月9日

Improve Large Language Model Systems with User Logs

Arxiv

0+阅读 · 2月6日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Feedback by Design: Understanding and Overcoming User Feedback Barriers in Conversational Agents

Arxiv

0+阅读 · 2月1日

Integrating Multi-Label Classification and Generative AI for Scalable Analysis of User Feedback

Arxiv

0+阅读 · 1月30日

相关基金

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员