Partially relevant video retrieval aims to retrieve untrimmed videos using text queries that describe only partial content. However, the inherent asymmetry between brief queries and rich video content inevitably introduces uncertainty into the retrieval process. In this setting, vague queries often induce semantic ambiguity across videos, a challenge that is further exacerbated by the sparse temporal supervision within videos, which fails to provide sufficient matching evidence. To address this, we propose Holmes, a hierarchical evidential learning framework that aggregates multi-granular cross-modal evidence to quantify and model uncertainty explicitly. At the inter-video level, similarity scores are interpreted as evidential support and modeled via a Dirichlet distribution. Based on the proposed three-fold principle, we perform fine-grained query identification, which then guides query-adaptive calibrated learning. At the intra-video level, to accumulate denser evidence, we formulate a soft query-clip alignment via flexible optimal transport with an adaptive dustbin, which alleviates sparse temporal supervision while suppressing spurious local responses. Extensive experiments demonstrate that Holmes outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICML26-Holmes.


翻译:部分相关视频检索旨在通过仅描述部分内容的文本查询检索未裁剪视频。然而,简短查询与丰富视频内容之间的固有不平衡性不可避免地引入了检索过程中的不确定性。在此设定下,模糊查询常导致视频间的语义歧义,而视频内稀疏的时间监督进一步加剧了这一挑战,因其无法提供充分的匹配证据。为解决此问题,我们提出Holmes——一个层次化实证学习框架,通过聚合多粒度跨模态证据来显式量化并建模不确定性。在视频间层面,相似度分数被解释为实证支持,并通过狄利克雷分布建模。基于提出的三要素原则,我们执行细粒度查询识别,进而指导查询自适应校准学习。在视频内层面,为积累更密集的证据,我们通过带自适应垃圾桶的柔性最优传输制定软查询-片段对齐,这既缓解了稀疏时间监督,又抑制了虚假局部响应。大量实验表明,Holmes优于现有最先进方法。代码已发布于https://github.com/lijun2005/ICML26-Holmes。

0
下载
关闭预览

相关内容

「视频片段检索」最新2022研究综述
专知会员服务
33+阅读 · 2022年8月7日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
专知会员服务
62+阅读 · 2021年3月25日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
一文概览基于深度学习的超分辨率重建架构
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
「视频片段检索」最新2022研究综述
专知会员服务
33+阅读 · 2022年8月7日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
基于深度学习的视频目标检测综述
专知会员服务
84+阅读 · 2021年5月19日
专知会员服务
62+阅读 · 2021年3月25日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员