Semantic communication is expected to be one of the cores of next-generation AI-based communications. One of the possibilities offered by semantic communication is the capability to regenerate, at the destination side, images or videos semantically equivalent to the transmitted ones, without necessarily recovering the transmitted sequence of bits. The current solutions still lack the ability to build complex scenes from the received partial information. Clearly, there is an unmet need to balance the effectiveness of generation methods and the complexity of the transmitted information, possibly taking into account the goal of communication. In this paper, we aim to bridge this gap by proposing a novel generative diffusion-guided framework for semantic communication that leverages the strong abilities of diffusion models in synthesizing multimedia content while preserving semantic features. We reduce bandwidth usage by sending highly-compressed semantic information only. Then, the diffusion model learns to synthesize semantic-consistent scenes through spatially-adaptive normalizations from such denoised semantic information. We prove, through an in-depth assessment of multiple scenarios, that our method outperforms existing solutions in generating high-quality images with preserved semantic information even in cases where the received content is significantly degraded. More specifically, our results show that objects, locations, and depths are still recognizable even in the presence of extremely noisy conditions of the communication channel. The code is available at https://github.com/ispamm/GESCO.


翻译:语义通信有望成为下一代基于人工智能的通信核心之一。语义通信所提供的可能性之一,是在接收端能够生成与所传输图像或视频语义等效的内容,而无需完整恢复传输的比特序列。现有解决方案仍缺乏根据接收到的部分信息构建复杂场景的能力。显然,当前需要在生成方法的有效性与传输信息的复杂性之间取得平衡,并可能需考虑通信的目标。本文旨在通过提出一种新颖的生成式扩散引导语义通信框架来弥合这一差距,该框架利用扩散模型在合成多媒体内容方面的强大能力,同时保持语义特征。我们仅发送高度压缩的语义信息以降低带宽使用。随后,扩散模型通过学习从去噪后的语义信息中,通过空间自适应归一化来合成语义一致的场景。通过对多种场景的深入评估,我们证明了即使在接收内容严重退化的情况下,我们的方法在生成具有保留语义信息的高质量图像方面优于现有解决方案。更具体地说,我们的结果表明,即使在通信信道存在极端噪声的条件下,物体、位置和深度信息仍然可被识别。代码可在 https://github.com/ispamm/GESCO 获取。

0
下载
关闭预览

相关内容

可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
《面向现代语义通信的语义知识库技术白皮书》正式发布
专知会员服务
58+阅读 · 2023年12月13日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
53+阅读 · 2019年7月23日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员