SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation - 专知论文

会员服务 ·

0

残差块 · 生成器 · 操作 · 解码 · 编码器-解码器架构 ·

2023 年 3 月 30 日

SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation

翻译：SARGAN：基于空间注意力残差的面部表情操纵方法

Arbish Akram,Nazar Khan

Encoder-decoder based architecture has been widely used in the generator of generative adversarial networks for facial manipulation. However, we observe that the current architecture fails to recover the input image color, rich facial details such as skin color or texture and introduces artifacts as well. In this paper, we present a novel method named SARGAN that addresses the above-mentioned limitations from three perspectives. First, we employed spatial attention-based residual block instead of vanilla residual blocks to properly capture the expression-related features to be changed while keeping the other features unchanged. Second, we exploited a symmetric encoder-decoder network to attend facial features at multiple scales. Third, we proposed to train the complete network with a residual connection which relieves the generator of pressure to generate the input face image thereby producing the desired expression by directly feeding the input image towards the end of the generator. Both qualitative and quantitative experimental results show that our proposed model performs significantly better than state-of-the-art methods. In addition, existing models require much larger datasets for training but their performance degrades on out-of-distribution images. In contrast, SARGAN can be trained on smaller facial expressions datasets, which generalizes well on out-of-distribution images including human photographs, portraits, avatars and statues.

翻译：基于编码器-解码器架构的生成器在生成对抗网络的面部操纵中被广泛使用。然而，我们观察到当前架构在输入图像色彩恢复、肤色或纹理等丰富面部细节保持方面存在不足，并且会引入伪影。本文提出一种名为SARGAN的新方法，从三个角度解决了上述局限。首先，我们采用基于空间注意力的残差模块替代标准残差模块，以便在保留其他特征不变的同时，准确捕捉需要改变的表情相关特征。其次，我们利用对称的编码器-解码器网络在多个尺度上关注面部特征。第三，我们提出通过残差连接训练完整网络，直接将输入图像馈送至生成器末端，减轻生成器生成输入人脸图像的压力，从而产生所需表情。定性和定量实验结果表明，我们的模型显著优于当前最优方法。此外，现有模型需要更大的数据集进行训练，但其在分布外图像上的性能会下降。相比之下，SARGAN可以在较小的面部表情数据集上训练，并能在包含人物照片、肖像、虚拟形象和雕像等分布外图像上实现良好的泛化能力。

0

相关内容

残差块

【Tel Aviv大学】StyleGAN的架构、方法和应用的最新进展，State-of-the-Art in the Architecture, Methods and Applications of StyleGAN

【Tel Aviv大学】StyleGAN的架构、方法和应用的最新进展，State-of-the-Art in the Architecture, Methods and Applications of StyleGAN

专知会员服务

20+阅读 · 2022年3月17日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

专知会员服务

70+阅读 · 2020年8月21日

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

专知会员服务

99+阅读 · 2020年7月6日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

【IJCAI2020】神经摘要结构性注意力，Neural Abstractive Summarization with Structural Attention

【IJCAI2020】神经摘要结构性注意力，Neural Abstractive Summarization with Structural Attention

专知会员服务

33+阅读 · 2020年4月24日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

PaperWeekly

18+阅读 · 2019年1月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

人脸皮肤软组织跨尺度变形测量与表情形成机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于宽视野脑功能成像技术的视觉空间面部表情识别的脑机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于局部纹理特征的图像细节超分辨率技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于面部解剖结构动力学模型与多模态时空数据耦合的人脸仿真

国家自然科学基金

0+阅读 · 2013年12月31日

基于形状流形的自发性表情识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于iRGD靶向载药脂质体-微泡复合体的超声成像引导给药治疗肿瘤的研究

国家自然科学基金

0+阅读 · 2012年12月31日

误差扩散采样新方法研究及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于广义稀疏表示的异质人脸图像变换和质量评价

国家自然科学基金

0+阅读 · 2011年12月31日

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Arxiv

2+阅读 · 2023年5月18日

Meta-Auxiliary Network for 3D GAN Inversion

Arxiv

0+阅读 · 2023年5月18日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition

Arxiv

15+阅读 · 2021年4月12日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Arxiv

42+阅读 · 2020年12月21日

DOTA: A Large-scale Dataset for Object Detection in Aerial Images

Arxiv

19+阅读 · 2018年1月27日

VIP会员

文章信息

相关主题

编码器-解码器架构

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

19+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【Tel Aviv大学】StyleGAN的架构、方法和应用的最新进展，State-of-the-Art in the Architecture, Methods and Applications of StyleGAN

【Tel Aviv大学】StyleGAN的架构、方法和应用的最新进展，State-of-the-Art in the Architecture, Methods and Applications of StyleGAN

专知会员服务

20+阅读 · 2022年3月17日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

最新《生成式对抗网络GAN时空数据应用》综述论文，28pdf

专知会员服务

70+阅读 · 2020年8月21日

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

【KDD2020-清华大学】自适应图编码器，Adaptive Graph Encoder for Attributed Graph Embedding

专知会员服务

99+阅读 · 2020年7月6日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

【IJCAI2020】神经摘要结构性注意力，Neural Abstractive Summarization with Structural Attention

【IJCAI2020】神经摘要结构性注意力，Neural Abstractive Summarization with Structural Attention

专知会员服务

33+阅读 · 2020年4月24日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

PaperWeekly

18+阅读 · 2019年1月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

相关论文

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Arxiv

2+阅读 · 2023年5月18日

Meta-Auxiliary Network for 3D GAN Inversion

Arxiv

0+阅读 · 2023年5月18日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition

Arxiv

15+阅读 · 2021年4月12日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

Deep Learning-Based Human Pose Estimation: A Survey

Arxiv

27+阅读 · 2020年12月24日

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Arxiv

42+阅读 · 2020年12月21日

DOTA: A Large-scale Dataset for Object Detection in Aerial Images

Arxiv

19+阅读 · 2018年1月27日

相关基金

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

人脸皮肤软组织跨尺度变形测量与表情形成机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于宽视野脑功能成像技术的视觉空间面部表情识别的脑机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于局部纹理特征的图像细节超分辨率技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于面部解剖结构动力学模型与多模态时空数据耦合的人脸仿真

国家自然科学基金

0+阅读 · 2013年12月31日

基于形状流形的自发性表情识别关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于iRGD靶向载药脂质体-微泡复合体的超声成像引导给药治疗肿瘤的研究

国家自然科学基金

0+阅读 · 2012年12月31日

误差扩散采样新方法研究及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于广义稀疏表示的异质人脸图像变换和质量评价

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员