OrbitStream: Training-Free Adaptive 360-degree Video Streaming via Semantic Potential Fields - 专知论文

会员服务 ·

0

奇虎 360 · 自适应 · 视频 · 传输 · 远程 ·

OrbitStream: Training-Free Adaptive 360-degree Video Streaming via Semantic Potential Fields

翻译：OrbitStream：基于语义势场的无训练自适应360度视频流传输

Aizierjiang Aiersilan,Zhangfei Yang

Adaptive 360° video streaming for teleoperation faces dual challenges: viewport prediction under uncertain gaze patterns and bitrate adaptation over volatile wireless channels. While data-driven and Deep Reinforcement Learning (DRL) methods achieve high Quality of Experience (QoE), their "black-box" nature and reliance on training data can limit deployment in safety-critical systems. To address this, we propose OrbitStream, a training-free framework that combines semantic scene understanding with robust control theory. We formulate viewport prediction as a Gravitational Viewport Prediction (GVP) problem, where semantic objects generate potential fields that attract user gaze. Furthermore, we employ a Saturation-Based Proportional-Derivative (PD) Controller for buffer regulation. On object-rich teleoperation traces, OrbitStream achieves a 94.7\% zero-shot viewport prediction accuracy without user-specific profiling, approaching trajectory-extrapolation baselines ($\sim$98.5\%). Across 3,600 Monte Carlo simulations on diverse network traces, OrbitStream yields a mean QoE of 2.71. It ranks second among 12 evaluated algorithms, close to the top-performing BOLA-E (2.80) while outperforming FastMPC (1.84). The system exhibits an average decision latency of 1.01 ms with minimal rebuffering events. By providing competitive QoE with interpretability and zero training overhead, OrbitStream demonstrates that physics-based control, combined with semantic modeling, offers a practical solution for 360° streaming in teleoperation.

翻译：远程操作中自适应360度视频流传输面临双重挑战：在不确定的注视模式下进行视口预测，以及在易变的无线信道上进行码率自适应。尽管数据驱动和深度强化学习方法能实现高体验质量，但其"黑箱"特性及对训练数据的依赖会限制其在安全关键系统中的部署。为此，我们提出OrbitStream这一无训练框架，将语义场景理解与鲁棒控制理论相结合。我们将视口预测形式化为引力视口预测问题，其中语义对象生成吸引用户注视的势场。此外，我们采用基于饱和的PD控制器进行缓冲区调节。在富含物体的远程操作轨迹数据上，OrbitStream无需用户特定建模即实现94.7%的零样本视口预测准确率，接近轨迹外推基线方法（约98.5%）。在多样化网络轨迹的3600次蒙特卡洛仿真中，OrbitStream的平均体验质量为2.71，在12种评估算法中位列第二，接近最优性能的BOLA-E（2.80），同时优于FastMPC（1.84）。该系统平均决策延迟为1.01毫秒，且极少发生缓冲事件。通过提供具有可解释性与零训练开销的竞争性体验质量，OrbitStream证明了基于物理的鲁棒控制与语义建模相结合，为远程操作中的360度视频流传输提供了实用解决方案。

0

相关内容

奇虎 360

中国领先的互联网安全服务与软件公司，主营以360安全卫士、360浏览器等为代表的网络安全产品。主要依靠在线广告、互联网增值服务创收。目前，公司PC端产品和服务的月活跃用户为4.42亿，市场渗透率为95%。

2012年8月，公司推出「360 搜索」业务，正式进军搜索引擎市场。作为中国互联网界最受争议的公司，奇虎360先后与腾讯、百度等互联网巨头产生过激烈的产品竞争。

2011年3月，公司以「QIHU」为代码正式登陆纽约证券交易所。

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

52+阅读 · 2025年9月23日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

面向实时视频流分析的边缘计算技术

面向实时视频流分析的边缘计算技术

专知会员服务

79+阅读 · 2022年6月5日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

新智元

10+阅读 · 2019年7月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Foreground-Complete 4D Reconstruction

Arxiv

0+阅读 · 5月19日

Training-Free Adaptive 360-degree Video Streaming via Semantic Potential Fields

Arxiv

0+阅读 · 5月1日

MODEST: Multi-Optics Depth-of-Field Stereo Dataset

Arxiv

0+阅读 · 4月19日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

Arxiv

0+阅读 · 3月30日

Tele-Catch: Adaptive Teleoperation for Dexterous Dynamic 3D Object Catching

Arxiv

0+阅读 · 3月30日

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Arxiv

0+阅读 · 3月27日

GenOpticalFlow: A Generative Approach to Unsupervised Optical Flow Learning

Arxiv

0+阅读 · 3月23日

A control-theoretic simplification of adaptive bitrate (ABR) video streaming

Arxiv

0+阅读 · 3月23日

AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

3+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

15+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

23+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

52+阅读 · 2025年9月23日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

面向实时视频流分析的边缘计算技术

面向实时视频流分析的边缘计算技术

专知会员服务

79+阅读 · 2022年6月5日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

新智元

10+阅读 · 2019年7月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

相关论文

FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Foreground-Complete 4D Reconstruction

Arxiv

0+阅读 · 5月19日

Training-Free Adaptive 360-degree Video Streaming via Semantic Potential Fields

Arxiv

0+阅读 · 5月1日

MODEST: Multi-Optics Depth-of-Field Stereo Dataset

Arxiv

0+阅读 · 4月19日

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

Arxiv

0+阅读 · 4月15日

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

Arxiv

0+阅读 · 3月30日

Tele-Catch: Adaptive Teleoperation for Dexterous Dynamic 3D Object Catching

Arxiv

0+阅读 · 3月30日

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Arxiv

0+阅读 · 3月27日

GenOpticalFlow: A Generative Approach to Unsupervised Optical Flow Learning

Arxiv

0+阅读 · 3月23日

A control-theoretic simplification of adaptive bitrate (ABR) video streaming

Arxiv

0+阅读 · 3月23日

AdaRadar: Rate Adaptive Spectral Compression for Radar-based Perception

Arxiv

0+阅读 · 3月18日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

软自适应无线视频传输的研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员