Ultra-high-resolution streaming and emerging immersive services are driving rapidly increasing wireless video traffic. However, perceptually pleasing video transmission over bandwidth-limited and latency-constrained wireless links remains challenging for conventional separated source-channel systems, which primarily target bit-level reliability and often suffer performance degradation under short-blocklength transmission. In addition, pixel-level distortion optimization does not necessarily align with human perception, while existing learned video codecs may incur high complexity and raise deployment issues. This paper proposes PVSC, a perception-aware video semantic communication framework for real-time wireless video transmission. PVSC eliminates explicit motion-vector transmission and exploits spatio-temporal feature coding to generate compact and channel-robust symbol streams. It also specifies side-information formatting, reference-buffer management, and lightweight rate control, enabling stable receiver-side reconstruction and bandwidth-adaptive inference with a single model. Extensive experiments demonstrate that PVSC achieves superior performance across diverse datasets, resolutions, GOP configurations, and channel conditions. Compared with the engineered ``VTM + 5G LDPC'' baseline, PVSC saves up to about 75% and 87% bandwidth at comparable LPIPS and DISTS, respectively, while enabling real-time inference on a single NVIDIA RTX 4090 GPU.


翻译:超高清流媒体和新兴沉浸式服务正推动无线视频流量急剧增长。然而,在带宽受限且延迟约束的无线链路上实现感知上令人满意的视频传输,对传统的分离式信源信道系统仍是一个挑战。这类系统主要追求比特级可靠性,在短块传输条件下常出现性能下降。此外,像素级失真优化并不必然与人类感知一致,而现有学习型视频编解码器可能带来高复杂性和部署问题。本文提出PVSC,一种面向感知的实时无线视频传输语义通信框架。PVSC消除显式运动矢量传输,并利用时空特征编码生成紧凑且抗信道干扰的符号流。该框架还规定了边信息格式化、参考缓冲区管理和轻量级码率控制,从而利用单一模型实现稳定的接收端重建和带宽自适应推理。大量实验表明,PVSC在多样化数据集、分辨率、GOP配置和信道条件下均展现出优越性能。与工程化基准“VTM + 5G LDPC”相比,PVSC在达到可比LPIPS和DISTS指标时,分别节省约75%和87%带宽,同时能够在单个NVIDIA RTX 4090 GPU上实现实时推理。

0
下载
关闭预览

相关内容

《5G 毫米波赋能 8K 视频制作》未来移动通信论坛
专知会员服务
12+阅读 · 2022年4月15日
专知会员服务
13+阅读 · 2021年9月13日
专知会员服务
32+阅读 · 2021年1月9日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 18分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 35分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员