VineetVC: Adaptive Video Conferencing Under Severe Bandwidth Constraints Using Audio-Driven Talking-Head Reconstruction - 专知论文

会员服务 ·

0

带宽 · 系统 · 会议 · 重建 · 自适应 ·

VineetVC: Adaptive Video Conferencing Under Severe Bandwidth Constraints Using Audio-Driven Talking-Head Reconstruction

翻译：VineetVC：在严格带宽约束下利用音频驱动说话头部重建的自适应视频会议系统

Vineet Kumar Rakesh,Soumya Mazumdar,Tapas Samanta,Hemendra Kumar Pandey,Amitabha Das,Sarbajit Pal

Intense bandwidth depletion within consumer and constrained networks has the potential to undermine the stability of real-time video conferencing: encoder rate management becomes saturated, packet loss escalates, frame rates deteriorate, and end-to-end latency significantly increases. This work delineates an adaptive conferencing system that integrates WebRTC media delivery with a supplementary audio-driven talking-head reconstruction pathway and telemetry-driven mode regulation. The system consists of a WebSocket signaling service, an optional SFU for multi-party transmission, a browser client capable of real-time WebRTC statistics extraction and CSV telemetry export, and an AI REST service that processes a reference face image and recorded audio to produce a synthesized MP4; the browser can substitute its outbound camera track with the synthesized stream with a median bandwidth of 32.80 kbps. The solution incorporates a bandwidth-mode switching strategy and a client-side mode-state logger.

翻译：在消费级和受限网络中，严重的带宽消耗可能破坏实时视频会议的稳定性：编码器码率管理趋于饱和、数据包丢失加剧、帧率下降，且端到端延迟显著增加。本研究阐述了一种自适应会议系统，该系统将WebRTC媒体传输与辅助的音频驱动说话头部重建路径及遥测驱动的模式调控机制相结合。系统包含WebSocket信令服务、用于多方传输的可选SFU、能够实时提取WebRTC统计数据并导出CSV遥测数据的浏览器客户端，以及一个通过处理参考人脸图像和录制音频来生成合成MP4的AI REST服务；浏览器可用该合成流（中位带宽32.80 kbps）替代其出站摄像头轨道。该方案融合了带宽模式切换策略与客户端模式状态记录器。

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

视频质量评价研究综述

视频质量评价研究综述

专知会员服务

27+阅读 · 2023年10月10日

第六届未来网络发展大会《确定性网络技术发展与产业应用白皮书》

第六届未来网络发展大会《确定性网络技术发展与产业应用白皮书》

专知会员服务

36+阅读 · 2022年9月21日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

泡泡机器人SLAM

23+阅读 · 2019年6月12日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

延迟容忍网络中自适应社会感知路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨层网络编码感知的无线传感器网络节能路由协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

三维片上网络通信自适应容错方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos

Arxiv

0+阅读 · 3月15日

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Arxiv

0+阅读 · 3月6日

WhisperNet: A Scalable Solution for Bandwidth-Efficient Collaboration

Arxiv

0+阅读 · 3月2日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

Secure AI-Driven Super-Resolution for Real-Time Mixed Reality Applications

Arxiv

0+阅读 · 2月11日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

Lightweight Call Signaling and Peer-to-Peer Control of WebRTC Video Conferencing

Arxiv

0+阅读 · 2月9日

Adaptive 1D Video Diffusion Autoencoder

Arxiv

0+阅读 · 2月4日

Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model

Arxiv

0+阅读 · 2月3日

TRACE: Unlocking Effective CXL Bandwidth via Lossless Compression and Precision Scaling

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

8+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

5+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

视频质量评价研究综述

视频质量评价研究综述

专知会员服务

27+阅读 · 2023年10月10日

第六届未来网络发展大会《确定性网络技术发展与产业应用白皮书》

第六届未来网络发展大会《确定性网络技术发展与产业应用白皮书》

专知会员服务

36+阅读 · 2022年9月21日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

泡泡机器人SLAM

23+阅读 · 2019年6月12日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

相关论文

ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos

Arxiv

0+阅读 · 3月15日

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

Arxiv

0+阅读 · 3月6日

WhisperNet: A Scalable Solution for Bandwidth-Efficient Collaboration

Arxiv

0+阅读 · 3月2日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

Secure AI-Driven Super-Resolution for Real-Time Mixed Reality Applications

Arxiv

0+阅读 · 2月11日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

Lightweight Call Signaling and Peer-to-Peer Control of WebRTC Video Conferencing

Arxiv

0+阅读 · 2月9日

Adaptive 1D Video Diffusion Autoencoder

Arxiv

0+阅读 · 2月4日

Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model

Arxiv

0+阅读 · 2月3日

TRACE: Unlocking Effective CXL Bandwidth via Lossless Compression and Precision Scaling

Arxiv

0+阅读 · 1月30日

相关基金

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

延迟容忍网络中自适应社会感知路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨层网络编码感知的无线传感器网络节能路由协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

三维片上网络通信自适应容错方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员