Interactive computer vision (CV) plays a crucial role in various real-world applications, whose performance is highly dependent on communication networks. Nonetheless, the data-oriented characteristics of conventional communications often do not align with the special needs of interactive CV tasks. To alleviate this issue, the recently emerged semantic communications only transmit task-related semantic information and exhibit a promising landscape to address this problem. However, the communication challenges associated with Semantic Facial Editing, one of the most important interactive CV applications on social media, still remain largely unexplored. In this paper, we fill this gap by proposing Editable-DeepSC, a novel cross-modal semantic communication approach for facial editing. Firstly, we theoretically discuss different transmission schemes that separately handle communications and editings, and emphasize the necessity of Joint Editing-Channel Coding (JECC) via iterative attributes matching, which integrates editings into the communication chain to preserve more semantic mutual information. To compactly represent the high-dimensional data, we leverage inversion methods via pre-trained StyleGAN priors for semantic coding. To tackle the dynamic channel noise conditions, we propose SNR-aware channel coding via model fine-tuning. Extensive experiments indicate that Editable-DeepSC can achieve superior editings while significantly saving the transmission bandwidth, even under high-resolution and out-of-distribution (OOD) settings.


翻译:交互式计算机视觉在各种实际应用中发挥着关键作用,其性能高度依赖于通信网络。然而,传统通信以数据为中心的特性通常与交互式计算机视觉任务的特殊需求不相符。为缓解此问题,近期兴起的语义通信仅传输与任务相关的语义信息,为解决该问题展现出广阔前景。然而,作为社交媒体上最重要的交互式计算机视觉应用之一,语义面部编辑所面临的通信挑战在很大程度上仍未得到探索。本文通过提出Editable-DeepSC——一种用于面部编辑的新型跨模态语义通信方法——来填补这一空白。首先,我们从理论上探讨了分别处理通信与编辑的不同传输方案,并通过迭代属性匹配强调了联合编辑-信道编码的必要性,该方案将编辑过程整合到通信链路中以保留更多语义互信息。为紧凑表示高维数据,我们利用基于预训练StyleGAN先验的反演方法进行语义编码。为应对动态信道噪声条件,我们提出通过模型微调实现SNR感知的信道编码。大量实验表明,即使在高分辨率和分布外场景下,Editable-DeepSC仍能在显著节省传输带宽的同时实现卓越的编辑效果。

0
下载
关闭预览

相关内容

基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
40+阅读 · 2021年8月31日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
6+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
16+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
10+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员