Precise spatial control in diffusion-based style transfer remains challenging. This challenge arises because diffusion models treat style as a global feature and lack explicit spatial grounding of style representations, making it difficult to restrict style application to specific objects or regions. To our knowledge, existing diffusion models are unable to perform true localized style transfer, typically relying on handcrafted masks or multi-stage post-processing that introduce boundary artifacts and limit generalization. To address this, we propose an attention-supervised diffusion framework that explicitly teaches the model where to apply a given style by aligning the attention scores of style tokens with object masks during training. Two complementary objectives, a Focus loss based on KL divergence and a Cover loss using binary cross-entropy, jointly encourage accurate localization and dense coverage. A modular LoRA-MoE design further enables efficient and scalable multi-style adaptation. To evaluate localized stylization, we introduce the Regional Style Editing Score, which measures Regional Style Matching through CLIP-based similarity within the target region and Identity Preservation via masked LPIPS and pixel-level consistency on unedited areas. Experiments show that our method achieves mask-free, single-object style transfer at inference, producing regionally accurate and visually coherent results that outperform existing diffusion-based editing approaches.


翻译:基于扩散的风格迁移方法在精确空间控制方面仍面临挑战。这一挑战源于扩散模型将风格视为全局特征,且缺乏风格表征的显式空间锚定,导致难以将风格应用限制于特定对象或区域。据我们所知,现有扩散模型无法实现真正的局部化风格迁移,通常依赖手工掩码或多阶段后处理,这会引入边界伪影并限制泛化能力。为此,我们提出一种注意力监督的扩散框架,通过在训练中将风格标记的注意力分数与对象掩码对齐,显式指导模型在何处应用给定风格。两个互补的目标函数——基于KL散度的聚焦损失和基于二元交叉熵的覆盖损失——共同促进精确定位与密集覆盖。模块化的LoRA-MoE设计进一步实现了高效可扩展的多风格适配。为评估局部风格化效果,我们提出了区域风格编辑评分,该指标通过目标区域内基于CLIP的相似度衡量区域风格匹配度,并通过掩码LPIPS与未编辑区域的像素级一致性评估身份保持性。实验表明,我们的方法在推理阶段实现了无需掩码的单对象风格迁移,生成的区域精确且视觉连贯的结果优于现有基于扩散的编辑方法。

0
下载
关闭预览

相关内容

文本风格迁移综述
专知会员服务
8+阅读 · 2025年6月3日
基于神经网络的图像风格迁移算法综述
专知会员服务
12+阅读 · 2025年5月29日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
文本风格迁移研究综述
专知会员服务
35+阅读 · 2022年1月1日
专知会员服务
34+阅读 · 2021年10月8日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
迁移自适应学习最新综述,附21页论文下载
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
风格迁移原理及tensorflow实现-附代码
机器学习研究会
19+阅读 · 2018年3月25日
图像风格迁移(Neural Style)简史
算法与数学之美
21+阅读 · 2018年2月4日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月8日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
9+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
文本风格迁移综述
专知会员服务
8+阅读 · 2025年6月3日
基于神经网络的图像风格迁移算法综述
专知会员服务
12+阅读 · 2025年5月29日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
文本风格迁移研究综述
专知会员服务
35+阅读 · 2022年1月1日
专知会员服务
34+阅读 · 2021年10月8日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员