CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer - 专知论文

会员服务 ·

0

一致 · 风格迁移 · 模型实现 · 细粒度 · 粒度 ·

CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer

翻译：CoCoDiff：基于对应一致性的扩散模型实现细粒度风格迁移

Wenbo Nie,Zixiang Li,Renshuai Tao,Bin Wu,Yunchao Wei,Yao Zhao

Transferring visual style between images while preserving semantic correspondence between similar objects remains a central challenge in computer vision. While existing methods have made great strides, most of them operate at global level but overlook region-wise and even pixel-wise semantic correspondence. To address this, we propose CoCoDiff, a novel training-free and low-cost style transfer framework that leverages pretrained latent diffusion models to achieve fine-grained, semantically consistent stylization. We identify that correspondence cues within generative diffusion models are under-explored and that content consistency across semantically matched regions is often neglected. CoCoDiff introduces a pixel-wise semantic correspondence module that mines intermediate diffusion features to construct a dense alignment map between content and style images. Furthermore, a cycle-consistency module then enforces structural and perceptual alignment across iterations, yielding object and region level stylization that preserves geometry and detail. Despite requiring no additional training or supervision, CoCoDiff delivers state-of-the-art visual quality and strong quantitative results, outperforming methods that rely on extra training or annotations.

翻译：在保持相似对象间语义对应的同时实现图像间视觉风格迁移，仍然是计算机视觉领域的核心挑战。现有方法虽已取得显著进展，但大多在全局层面操作，忽视了区域乃至像素级的语义对应关系。为此，我们提出CoCoDiff——一种无需训练、低成本的风格迁移框架，该框架利用预训练的潜在扩散模型实现细粒度、语义一致的风格化。我们发现生成式扩散模型内部的对应线索尚未被充分探索，且跨语义匹配区域的内容一致性常被忽视。CoCoDiff引入像素级语义对应模块，通过挖掘扩散过程的中间特征来构建内容图像与风格图像间的稠密对齐映射。此外，循环一致性模块在迭代过程中强制保持结构与感知对齐，从而生成能保留几何结构与细节的对象级与区域级风格化结果。尽管无需额外训练或监督，CoCoDiff仍能提供最先进的视觉质量与强劲的量化性能，其表现优于依赖额外训练或标注的方法。

0

相关内容

文本风格迁移综述

文本风格迁移综述

专知会员服务

8+阅读 · 2025年6月3日

基于神经网络的图像风格迁移算法综述

基于神经网络的图像风格迁移算法综述

专知会员服务

12+阅读 · 2025年5月29日

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

专知会员服务

26+阅读 · 2023年8月20日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

文本风格迁移研究综述

文本风格迁移研究综述

专知会员服务

35+阅读 · 2022年1月1日

神经风格迁移模型综述

专知会员服务

34+阅读 · 2021年10月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知会员服务

31+阅读 · 2020年3月26日

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

专知会员服务

15+阅读 · 2020年1月9日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【资源】文本风格迁移相关资源汇总

【资源】文本风格迁移相关资源汇总

专知

13+阅读 · 2020年7月11日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知

20+阅读 · 2020年3月26日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

风格迁移原理及tensorflow实现-附代码

风格迁移原理及tensorflow实现-附代码

机器学习研究会

19+阅读 · 2018年3月25日

图像风格迁移(Neural Style)简史

图像风格迁移(Neural Style)简史

算法与数学之美

21+阅读 · 2018年2月4日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Parameterized Brushstroke Style Transfer

Arxiv

0+阅读 · 3月8日

CoopDiff: A Diffusion-Guided Approach for Cooperation under Corruptions

Arxiv

0+阅读 · 3月2日

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Arxiv

0+阅读 · 2月26日

DiffBMP: Differentiable Rendering with Bitmap Primitives

Arxiv

0+阅读 · 2月26日

RegionRoute: Regional Style Transfer with Diffusion Model

Arxiv

0+阅读 · 2月22日

Text Style Transfer with Parameter-efficient LLM Finetuning and Round-trip Translation

Arxiv

0+阅读 · 2月16日

CoCoEdit: Content-Consistent Image Editing via Region Regularized Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Arxiv

0+阅读 · 2月12日

Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning

Arxiv

0+阅读 · 2月5日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

5+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

7+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

6+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

10+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

11+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

10+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

文本风格迁移综述

文本风格迁移综述

专知会员服务

8+阅读 · 2025年6月3日

基于神经网络的图像风格迁移算法综述

基于神经网络的图像风格迁移算法综述

专知会员服务

12+阅读 · 2025年5月29日

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移

专知会员服务

26+阅读 · 2023年8月20日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

文本风格迁移研究综述

文本风格迁移研究综述

专知会员服务

35+阅读 · 2022年1月1日

神经风格迁移模型综述

专知会员服务

34+阅读 · 2021年10月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知会员服务

31+阅读 · 2020年3月26日

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

专知会员服务

15+阅读 · 2020年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【资源】文本风格迁移相关资源汇总

【资源】文本风格迁移相关资源汇总

专知

13+阅读 · 2020年7月11日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知

20+阅读 · 2020年3月26日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

TensorFlow动态图5行代码实现迁移学习 - 识别转变风格的MNIST

专知

18+阅读 · 2019年4月26日

风格迁移原理及tensorflow实现-附代码

风格迁移原理及tensorflow实现-附代码

机器学习研究会

19+阅读 · 2018年3月25日

图像风格迁移(Neural Style)简史

图像风格迁移(Neural Style)简史

算法与数学之美

21+阅读 · 2018年2月4日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

相关论文

Parameterized Brushstroke Style Transfer

Arxiv

0+阅读 · 3月8日

CoopDiff: A Diffusion-Guided Approach for Cooperation under Corruptions

Arxiv

0+阅读 · 3月2日

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Arxiv

0+阅读 · 2月26日

DiffBMP: Differentiable Rendering with Bitmap Primitives

Arxiv

0+阅读 · 2月26日

RegionRoute: Regional Style Transfer with Diffusion Model

Arxiv

0+阅读 · 2月22日

Text Style Transfer with Parameter-efficient LLM Finetuning and Round-trip Translation

Arxiv

0+阅读 · 2月16日

CoCoEdit: Content-Consistent Image Editing via Region Regularized Reinforcement Learning

Arxiv

0+阅读 · 2月15日

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Arxiv

0+阅读 · 2月12日

Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning

Arxiv

0+阅读 · 2月5日

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Arxiv

0+阅读 · 2月2日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员