基于人机交互贝叶斯优化的个性化图像生成 (Personalized Image Generation via Human-in-the-loop Bayesian Optimization) - 专知论文

会员服务 ·

0

贝叶斯 · 个性化图像生成 · 贝叶斯优化 · 交互 · 图像生成 ·

Personalized Image Generation via Human-in-the-loop Bayesian Optimization

翻译：基于人机交互贝叶斯优化的个性化图像生成

Rajalaxmi Rajagopalan,Debottam Dutta,Yu-Lin Wei,Romit Roy Choudhury

Imagine Alice has a specific image $x^\ast$ in her mind, say, the view of the street in which she grew up during her childhood. To generate that exact image, she guides a generative model with multiple rounds of prompting and arrives at an image $x^{p*}$. Although $x^{p*}$ is reasonably close to $x^\ast$, Alice finds it difficult to close that gap using language prompts. This paper aims to narrow this gap by observing that even after language has reached its limits, humans can still tell when a new image $x^+$ is closer to $x^\ast$ than $x^{p*}$. Leveraging this observation, we develop MultiBO (Multi-Choice Preferential Bayesian Optimization) that carefully generates $K$ new images as a function of $x^{p*}$, gets preferential feedback from the user, uses the feedback to guide the diffusion model, and ultimately generates a new set of $K$ images. We show that within $B$ rounds of user feedback, it is possible to arrive much closer to $x^\ast$, even though the generative model has no information about $x^\ast$. Qualitative scores from $30$ users, combined with quantitative metrics compared across $5$ baselines, show promising results, suggesting that multi-choice feedback from humans can be effectively harnessed for personalized image generation.

翻译：假设Alice心中有一幅特定的图像$x^\ast$，例如她童年成长街道的景象。为了生成这幅精确图像，她通过多轮提示引导生成模型，最终得到图像$x^{p*}$。尽管$x^{p*}$已相当接近$x^\ast$，Alice发现仅通过语言提示难以完全消除两者间的差距。本文通过观察发现：即使在语言描述达到极限后，人类仍能判断新图像$x^+$是否比$x^{p*}$更接近$x^\ast$。基于这一观察，我们开发了MultiBO（多选择偏好贝叶斯优化）方法，该方法能够以$x^{p*}$为基准生成$K$幅新图像，获取用户的偏好反馈，利用反馈指导扩散模型，并最终生成新的$K$幅图像集合。研究表明，在$B$轮用户反馈过程中，即使生成模型未获得$x^\ast$的直接信息，仍能生成与$x^\ast$高度接近的图像。通过30位用户的定性评分，以及相较于5个基线模型的定量指标对比，实验结果表明该方法具有显著优势，证明人类的多选择反馈能有效推动个性化图像生成。

0

相关内容

贝叶斯

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

专知会员服务

25+阅读 · 2025年12月27日

【CVPR2025】个性化视觉与语言生成

【CVPR2025】个性化视觉与语言生成

专知会员服务

9+阅读 · 2025年5月1日

基于深度生成模型的个性化图像生成：十年综述

基于深度生成模型的个性化图像生成：十年综述

专知会员服务

19+阅读 · 2025年2月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

如何生成“好”的图？【TPAMI2022】面向图生成的深度生成模型系统综述

如何生成“好”的图？【TPAMI2022】面向图生成的深度生成模型系统综述

专知会员服务

38+阅读 · 2022年10月10日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

Consistent text-to-image generation via scene de-contextualization

Arxiv

0+阅读 · 2月15日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation

Arxiv

0+阅读 · 2月6日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月2日

Cost-Aware Bayesian Optimization for Prototyping Interactive Devices

Arxiv

0+阅读 · 2月2日

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

Arxiv

0+阅读 · 2月2日

NativeTok: Native Visual Tokenization for Improved Image Generation

Arxiv

0+阅读 · 1月30日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Generative Modeling with Bayesian Sample Inference

Arxiv

0+阅读 · 1月27日

A Geometric Unification of Generative AI with Manifold-Probabilistic Projection Models

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

个性化图像生成

贝叶斯优化

相关VIP内容

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

专知会员服务

25+阅读 · 2025年12月27日

【CVPR2025】个性化视觉与语言生成

【CVPR2025】个性化视觉与语言生成

专知会员服务

9+阅读 · 2025年5月1日

基于深度生成模型的个性化图像生成：十年综述

基于深度生成模型的个性化图像生成：十年综述

专知会员服务

19+阅读 · 2025年2月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

如何生成“好”的图？【TPAMI2022】面向图生成的深度生成模型系统综述

如何生成“好”的图？【TPAMI2022】面向图生成的深度生成模型系统综述

专知会员服务

38+阅读 · 2022年10月10日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

Consistent text-to-image generation via scene de-contextualization

Arxiv

0+阅读 · 2月15日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation

Arxiv

0+阅读 · 2月6日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月2日

Cost-Aware Bayesian Optimization for Prototyping Interactive Devices

Arxiv

0+阅读 · 2月2日

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

Arxiv

0+阅读 · 2月2日

NativeTok: Native Visual Tokenization for Improved Image Generation

Arxiv

0+阅读 · 1月30日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Generative Modeling with Bayesian Sample Inference

Arxiv

0+阅读 · 1月27日

A Geometric Unification of Generative AI with Manifold-Probabilistic Projection Models

Arxiv

0+阅读 · 1月15日

相关基金

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向情感认知的产品造型特征与用户意象需求层次映射机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员