Micro-video popularity prediction (MVPP) aims to forecast the future popularity of videos on online media, which is essential for applications such as content recommendation and traffic allocation. In real-world scenarios, it is critical for MVPP approaches to understand both the temporal dynamics of a given video (temporal) and its historical relevance to other videos (spatial). However, existing approaches sufer from limitations in both dimensions: temporally, they rely on sparse short-range sampling that restricts content perception; spatially, they depend on flat retrieval memory with limited capacity and low efficiency, hindering scalable knowledge utilization. To overcome these limitations, we propose a unified framework that achieves joint spatio-temporal enlargement, enabling precise perception of extremely long video sequences while supporting a scalable memory bank that can infinitely expand to incorporate all relevant historical videos. Technically, we employ a Temporal Enlargement driven by a frame scoring module that extracts highlight cues from video frames through two complementary pathways: sparse sampling and dense perception. Their outputs are adaptively fused to enable robust long-sequence content understanding. For Spatial Enlargement, we construct a Topology-Aware Memory Bank that hierarchically clusters historically relevant content based on topological relationships. Instead of directly expanding memory capacity, we update the encoder features of the corresponding clusters when incorporating new videos, enabling unbounded historical association without unbounded storage growth. Extensive experiments on three widely used MVPP benchmarks demonstrate that our method consistently outperforms 11 strong baselines across mainstream metrics, achieving robust improvements in both prediction accuracy and ranking consistency.


翻译:微视频流行度预测旨在预测视频在在线媒体上的未来流行程度,这对于内容推荐和流量分配等应用至关重要。在实际场景中,流行度预测方法需同时理解给定视频的时间动态性及其与其他视频的历史相关性。然而,现有方法在这两个维度均存在局限:在时间维度上,它们依赖稀疏的短程采样,限制了内容感知能力;在空间维度上,它们依赖具有有限容量和低效率的平面检索记忆,阻碍了可扩展的知识利用。为克服这些限制,我们提出一个统一框架,实现联合时空扩展,既能精确感知极长视频序列,又能支持可无限扩展的记忆库以整合所有相关历史视频。在技术层面,我们采用由帧评分模块驱动的时间扩展机制,通过两条互补路径(稀疏采样与密集感知)从视频帧中提取高亮线索,并自适应融合其输出以实现鲁棒的长时间序列内容理解。对于空间扩展,我们构建基于拓扑感知的记忆库,根据拓扑关系对历史相关内容进行层次化聚类。该方法并非直接扩展记忆容量,而是在融入新视频时更新对应聚类的编码器特征,从而在无存储无限增长的情况下实现无界历史关联。在三个广泛使用的微视频流行度预测基准上的大量实验表明,我们的方法在主流指标上持续优于11个强基线模型,在预测准确性和排序一致性方面均实现稳健提升。

0
下载
关闭预览

相关内容

【博士论文】视频理解:时间维度的深度透视
专知会员服务
7+阅读 · 2月5日
【HKUST博士论文】迈向可扩展且具泛化能力的时空预测
专知会员服务
18+阅读 · 2025年6月27日
基于深度学习的信息传播微观预测综述
专知会员服务
12+阅读 · 2025年5月4日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
专知会员服务
40+阅读 · 2021年5月30日
专知会员服务
47+阅读 · 2021年3月24日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
SCENE-一个可扩展两层级新闻推荐系统
全球人工智能
11+阅读 · 2018年1月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员