ReVo: A Cross-Layer Reliable Volumetric Videoconferencing System - 专知论文

会员服务 ·

0

视频 · 丢包 · 会议 · 系统 · 跨层 ·

ReVo: A Cross-Layer Reliable Volumetric Videoconferencing System

翻译：ReVo：一种跨层可靠的体积视频会议系统

Ankur Aditya,Diptyaroop Maji,Lingdong Wang,Bhavya Ramakrishna,Ramesh Sitaraman,Prashant Shenoy

from arxiv, 19 pages, 20 figures, Project website: https://umassos.github.io/revo-website/

Volumetric videoconferencing enables immersive six Degrees of Freedom interactions by jointly transmitting visual appearance and 3D geometry. However, delivering volumetric video over today's networks remains challenging due to high bandwidth demands, strict real-time latency constraints, and frequent packet loss. Packet loss not only degrades visual quality but also corrupts geometric structure, leading to severe artifacts and video freezes that significantly degrade Quality of Experience. Existing solutions either optimize volumetric videos assuming reliable networks or focus on loss recovery for 2D video, and are insufficient for volumetric videoconferencing. In this paper, we present ReVo, a loss-resilient volumetric videoconferencing system that jointly recovers RGB and depth content under packet loss while meeting real-time constraints on desktop-grade hardware. ReVo leverages the insight that effective recovery requires a cross-layer, modality-aware design. It decouples volumetric video into RGB and depth streams, selectively protects critical content using network-layer FEC, and reconstructs corrupted non-critical frames using a post-decode neural recovery module. ReVo is implemented end-to-end over WebRTC and supports both traditional and neural video codecs. Our evaluations using real-world loss traces show that ReVo improves median SSIM by up to 32% (resp. 13%) for RGB (resp. depth) content and reduces video freezes by up to 95.7% compared to existing techniques.

翻译：体积视频会议通过联合传输视觉外观和3D几何信息，实现了沉浸式六自由度交互。然而，在现有网络上传输体积视频仍面临高带宽需求、严格实时延迟约束以及频繁丢包等挑战。丢包不仅会降低视觉质量，还会破坏几何结构，导致严重伪影和视频冻结，极大损害用户体验质量。现有解决方案要么假设网络可靠以优化体积视频，要么专注于2D视频的丢包恢复，均不足以应对体积视频会议场景。本文提出ReVo，一种具有抗丢包能力的体积视频会议系统，能在桌面级硬件上满足实时约束的同时，联合恢复丢包下的RGB和深度内容。ReVo基于关键洞察：有效恢复需要跨层且模态感知的设计。它将体积视频解耦为RGB和深度流，利用网络层前向纠错选择性保护关键内容，并通过解码后神经恢复模块重建受损的非关键帧。ReVo基于WebRTC实现端到端系统，同时支持传统和神经视频编解码器。使用真实丢包轨迹的评估表明，与现有技术相比，ReVo将RGB（深度）内容的中值SSIM最高提升32%（13%），并将视频冻结减少高达95.7%。

0

相关内容

视频

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

专知会员服务

86+阅读 · 2023年2月2日

深度学习视频超分辨率技术概述

深度学习视频超分辨率技术概述

专知会员服务

38+阅读 · 2022年7月18日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

视频处理与压缩技术

专知会员服务

37+阅读 · 2021年2月20日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

大数据文摘

13+阅读 · 2019年4月23日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

CVPR2019即将截稿，盘点2019计算机视觉顶级会议时间表（文末有彩蛋）

CVPR2019即将截稿，盘点2019计算机视觉顶级会议时间表（文末有彩蛋）

极市平台

16+阅读 · 2018年11月16日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

StreamGuard: Exploring a 5G Architecture for Efficient, Quality of Experience-Aware Video Conferencing

Arxiv

0+阅读 · 4月29日

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Arxiv

0+阅读 · 4月21日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Stimpack: An Adaptive Rendering Optimization System for Scalable Cloud Gaming

Arxiv

0+阅读 · 4月19日

VVGT: Visual Volume-Grounded Transformer

Arxiv

0+阅读 · 4月14日

Mosaic: Cross-Modal Clustering for Efficient Video Understanding

Arxiv

0+阅读 · 4月11日

Realizing Immersive Volumetric Video: A Multimodal Framework for 6-DoF VR Engagement

Arxiv

0+阅读 · 4月10日

LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models

Arxiv

0+阅读 · 4月2日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Arxiv

0+阅读 · 3月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

数字孪生互联网是什么？西安交大等最新《数字孪生技术》综述论文，21页pdf全面阐述数字孪生体系结构、赋能技术、安全与隐私与展望

专知会员服务

86+阅读 · 2023年2月2日

深度学习视频超分辨率技术概述

深度学习视频超分辨率技术概述

专知会员服务

38+阅读 · 2022年7月18日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

视频处理与压缩技术

专知会员服务

37+阅读 · 2021年2月20日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

比CNN表现更好，CV领域全新卷积操作OctConv厉害在哪里？

大数据文摘

13+阅读 · 2019年4月23日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

CVPR2019即将截稿，盘点2019计算机视觉顶级会议时间表（文末有彩蛋）

CVPR2019即将截稿，盘点2019计算机视觉顶级会议时间表（文末有彩蛋）

极市平台

16+阅读 · 2018年11月16日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

相关论文

StreamGuard: Exploring a 5G Architecture for Efficient, Quality of Experience-Aware Video Conferencing

Arxiv

0+阅读 · 4月29日

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Arxiv

0+阅读 · 4月21日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Stimpack: An Adaptive Rendering Optimization System for Scalable Cloud Gaming

Arxiv

0+阅读 · 4月19日

VVGT: Visual Volume-Grounded Transformer

Arxiv

0+阅读 · 4月14日

Mosaic: Cross-Modal Clustering for Efficient Video Understanding

Arxiv

0+阅读 · 4月11日

Realizing Immersive Volumetric Video: A Multimodal Framework for 6-DoF VR Engagement

Arxiv

0+阅读 · 4月10日

LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models

Arxiv

0+阅读 · 4月2日

Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search

Arxiv

0+阅读 · 3月24日

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Arxiv

0+阅读 · 3月16日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员