Perception-Aware Video Semantic Communication - 专知论文

会员服务 ·

0

Performer · 推断 · 流 · 分离的 · 优化器 ·

Perception-Aware Video Semantic Communication

翻译：面向感知的视频语义通信

Yinhuan Huang,Zhijin Qin

Ultra-high-resolution streaming and emerging immersive services are driving rapidly increasing wireless video traffic. However, perceptually pleasing video transmission over bandwidth-limited and latency-constrained wireless links remains challenging for conventional separated source-channel systems, which primarily target bit-level reliability and often suffer performance degradation under short-blocklength transmission. In addition, pixel-level distortion optimization does not necessarily align with human perception, while existing learned video codecs may incur high complexity and raise deployment issues. This paper proposes PVSC, a perception-aware video semantic communication framework for real-time wireless video transmission. PVSC eliminates explicit motion-vector transmission and exploits spatio-temporal feature coding to generate compact and channel-robust symbol streams. It also specifies side-information formatting, reference-buffer management, and lightweight rate control, enabling stable receiver-side reconstruction and bandwidth-adaptive inference with a single model. Extensive experiments demonstrate that PVSC achieves superior performance across diverse datasets, resolutions, GOP configurations, and channel conditions. Compared with the engineered ``VTM + 5G LDPC'' baseline, PVSC saves up to about 75% and 87% bandwidth at comparable LPIPS and DISTS, respectively, while enabling real-time inference on a single NVIDIA RTX 4090 GPU.

翻译：超高清流媒体和新兴沉浸式服务正推动无线视频流量急剧增长。然而，在带宽受限且延迟约束的无线链路上实现感知上令人满意的视频传输，对传统的分离式信源信道系统仍是一个挑战。这类系统主要追求比特级可靠性，在短块传输条件下常出现性能下降。此外，像素级失真优化并不必然与人类感知一致，而现有学习型视频编解码器可能带来高复杂性和部署问题。本文提出PVSC，一种面向感知的实时无线视频传输语义通信框架。PVSC消除显式运动矢量传输，并利用时空特征编码生成紧凑且抗信道干扰的符号流。该框架还规定了边信息格式化、参考缓冲区管理和轻量级码率控制，从而利用单一模型实现稳定的接收端重建和带宽自适应推理。大量实验表明，PVSC在多样化数据集、分辨率、GOP配置和信道条件下均展现出优越性能。与工程化基准“VTM + 5G LDPC”相比，PVSC在达到可比LPIPS和DISTS指标时，分别节省约75%和87%带宽，同时能够在单个NVIDIA RTX 4090 GPU上实现实时推理。

0

相关内容

Performer

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

专知会员服务

18+阅读 · 2月2日

《为移动环境中的战术异构网络开发频谱感知合作与融合策略》105页

《为移动环境中的战术异构网络开发频谱感知合作与融合策略》105页

专知会员服务

23+阅读 · 2025年2月11日

【CVPR2023】SparseViT:重新审视高效高分辨率视觉Transformer的激活稀疏性

【CVPR2023】SparseViT:重新审视高效高分辨率视觉Transformer的激活稀疏性

专知会员服务

15+阅读 · 2023年4月2日

《使用神经网络的蜂群认知无线电聚类算法》美海军2022最新78页论文

《使用神经网络的蜂群认知无线电聚类算法》美海军2022最新78页论文

专知会员服务

39+阅读 · 2022年12月26日

《5G 毫米波赋能 8K 视频制作》未来移动通信论坛

《5G 毫米波赋能 8K 视频制作》未来移动通信论坛

专知会员服务

12+阅读 · 2022年4月15日

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

专知会员服务

19+阅读 · 2022年3月23日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

基于深度学习的信源信道联合编码方法综述

专知会员服务

33+阅读 · 2021年1月9日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

视频大脑：视频内容理解的技术与应用

视频大脑：视频内容理解的技术与应用

AI前线

13+阅读 · 2019年4月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态频谱共享的星地协同认知无线通信技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

A Perception vs. Distortion Perspective on Score-Based Generative Channel Estimation

Arxiv

0+阅读 · 6月15日

Predictive Dynamic Scheduling for Deterministic Communications in Beyond 5G

Arxiv

0+阅读 · 6月15日

Policy-based Foveated Imaging and Perception

Arxiv

0+阅读 · 6月1日

Toward Reliable Semantic Communication: Beyond Average Performance

Arxiv

0+阅读 · 5月31日

A Comprehensive Survey on Semantic Communication in Non-Terrestrial Networks: Architectures, Methodologies, and Challenges

Arxiv

0+阅读 · 5月28日

Recursive Vision Transformer with Dynamic Depth and Width Adjustment for Resource-Efficient Image Semantic Communication

Arxiv

0+阅读 · 5月27日

SafeSABR: Risk-Calibrated Adaptive Bitrate Streaming over Starlink Networks

Arxiv

0+阅读 · 5月22日

GeoGS-CE: Learning Delay--Beam Channel Priors with 3D Gaussians for High-Mobility Scenarios

Arxiv

0+阅读 · 5月15日

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Arxiv

0+阅读 · 5月14日

Semantics-Aware Communication:A Differentiated Allocation Perspective

Arxiv

0+阅读 · 5月9日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

专知会员服务

18+阅读 · 2月2日

《为移动环境中的战术异构网络开发频谱感知合作与融合策略》105页

《为移动环境中的战术异构网络开发频谱感知合作与融合策略》105页

专知会员服务

23+阅读 · 2025年2月11日

【CVPR2023】SparseViT:重新审视高效高分辨率视觉Transformer的激活稀疏性

【CVPR2023】SparseViT:重新审视高效高分辨率视觉Transformer的激活稀疏性

专知会员服务

15+阅读 · 2023年4月2日

《使用神经网络的蜂群认知无线电聚类算法》美海军2022最新78页论文

《使用神经网络的蜂群认知无线电聚类算法》美海军2022最新78页论文

专知会员服务

39+阅读 · 2022年12月26日

《5G 毫米波赋能 8K 视频制作》未来移动通信论坛

《5G 毫米波赋能 8K 视频制作》未来移动通信论坛

专知会员服务

12+阅读 · 2022年4月15日

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

《6G 可见光通信技术白皮书（2022）》，中国移动通信有限公司研究院

专知会员服务

19+阅读 · 2022年3月23日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

基于深度学习的信源信道联合编码方法综述

专知会员服务

33+阅读 · 2021年1月9日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

视频大脑：视频内容理解的技术与应用

视频大脑：视频内容理解的技术与应用

AI前线

13+阅读 · 2019年4月18日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关论文

A Perception vs. Distortion Perspective on Score-Based Generative Channel Estimation

Arxiv

0+阅读 · 6月15日

Predictive Dynamic Scheduling for Deterministic Communications in Beyond 5G

Arxiv

0+阅读 · 6月15日

Policy-based Foveated Imaging and Perception

Arxiv

0+阅读 · 6月1日

Toward Reliable Semantic Communication: Beyond Average Performance

Arxiv

0+阅读 · 5月31日

A Comprehensive Survey on Semantic Communication in Non-Terrestrial Networks: Architectures, Methodologies, and Challenges

Arxiv

0+阅读 · 5月28日

Recursive Vision Transformer with Dynamic Depth and Width Adjustment for Resource-Efficient Image Semantic Communication

Arxiv

0+阅读 · 5月27日

SafeSABR: Risk-Calibrated Adaptive Bitrate Streaming over Starlink Networks

Arxiv

0+阅读 · 5月22日

GeoGS-CE: Learning Delay--Beam Channel Priors with 3D Gaussians for High-Mobility Scenarios

Arxiv

0+阅读 · 5月15日

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Arxiv

0+阅读 · 5月14日

Semantics-Aware Communication:A Differentiated Allocation Perspective

Arxiv

0+阅读 · 5月9日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态频谱共享的星地协同认知无线通信技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员