Adaptive streaming of 360-degree video relies on viewport prediction to allocate bandwidth efficiently. Current approaches predominantly use visual saliency or historical gaze patterns, neglecting the role of spatial audio in guiding user attention. This paper presents a self-learning framework for detecting "surprising" auditory events -- moments that deviate from learned temporal expectations -- and demonstrates their utility for viewport prediction. The proposed architecture combines $SE(3)$-equivariant graph neural networks with recurrent temporal modeling, trained via a dual self-supervised objective. A key feature is the natural modeling of temporal attention decay: surprise is high at event onset but diminishes as the listener adapts. Experiments on the AVTrack360 dataset show that integrating audio surprise with visual cues reduces bitrate waste by up to 18% compared to visual-only methods.


翻译:自适应360度视频流传输依赖于视口预测以实现带宽的高效分配。当前方法主要利用视觉显著性或历史注视模式,忽视了空间音频在引导用户注意力方面的作用。本文提出一种自学习框架,用于检测“惊奇”听觉事件——即偏离已学习时序预期的时刻——并论证其在视口预测中的实用性。所提出的架构结合了$SE(3)$-等变图神经网络与循环时序建模,通过双重自监督目标进行训练。一个关键特征是时序注意力衰减的自然建模:惊奇度在事件起始时较高,但随着听者适应而减弱。在AVTrack360数据集上的实验表明,与纯视觉方法相比,将音频惊奇度与视觉线索相结合,可将比特率浪费减少高达18%。

0
下载
关闭预览

相关内容

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
32+阅读 · 2022年10月6日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员