GranAlign：面向零样本视频片段检索的粒度感知对齐框架 (GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval) - 专知论文

会员服务 ·

0

粒度 · 视频 · 片段 · 对齐 · 样本 ·

GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval

翻译：GranAlign：面向零样本视频片段检索的粒度感知对齐框架

Mingyu Jeon,Sunjae Yoon,Jonghee Kim,Junyeoung Kim

from arxiv, Accepted to AAAI 2026

Zero-shot video moment retrieval (ZVMR) is the task of localizing a temporal moment within an untrimmed video using a natural language query without relying on task-specific training data. The primary challenge in this setting lies in the mismatch in semantic granularity between textual queries and visual content. Previous studies in ZVMR have attempted to achieve alignment by leveraging high-quality pre-trained knowledge that represents video and language in a joint space. However, these approaches failed to balance the semantic granularity between the pre-trained knowledge provided by each modality for a given scene. As a result, despite the high quality of each modality's representations, the mismatch in granularity led to inaccurate retrieval. In this paper, we propose a training-free framework, called Granularity-Aware Alignment (GranAlign), that bridges this gap between coarse and fine semantic representations. Our approach introduces two complementary techniques: granularity-based query rewriting to generate varied semantic granularities, and query-aware caption generation to embed query intent into video content. By pairing multi-level queries with both query-agnostic and query-aware captions, we effectively resolve semantic mismatches. As a result, our method sets a new state-of-the-art across all three major benchmarks (QVHighlights, Charades-STA, ActivityNet-Captions), with a notable 3.23% mAP@avg improvement on the challenging QVHighlights dataset.

翻译：零样本视频片段检索（ZVMR）是在未经剪辑的视频中，利用自然语言查询定位时间片段的任务，且不依赖于特定任务的训练数据。该任务的主要挑战在于文本查询与视觉内容之间的语义粒度不匹配。先前关于ZVMR的研究尝试通过利用在联合空间中表示视频和语言的高质量预训练知识来实现对齐。然而，这些方法未能平衡给定场景下各模态所提供的预训练知识之间的语义粒度。因此，尽管各模态的表征质量很高，但粒度的不匹配导致了检索不准确。本文提出了一种无需训练的框架，称为粒度感知对齐（GranAlign），旨在弥合粗粒度与细粒度语义表征之间的差距。我们的方法引入了两种互补技术：基于粒度的查询重写以生成多样化的语义粒度，以及查询感知的标题生成以将查询意图嵌入视频内容。通过将多层级查询与查询无关及查询感知的标题配对，我们有效地解决了语义不匹配问题。因此，我们的方法在全部三个主要基准数据集（QVHighlights、Charades-STA、ActivityNet-Captions）上均取得了新的最优性能，其中在具有挑战性的QVHighlights数据集上实现了显著的3.23% mAP@avg提升。

0

相关内容

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

专知会员服务

17+阅读 · 2025年1月16日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

35+阅读 · 2021年2月26日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

CountZES: Counting via Zero-Shot Exemplar Selection

Arxiv

0+阅读 · 2月3日

StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval

Arxiv

0+阅读 · 1月28日

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

Arxiv

0+阅读 · 1月28日

Induce, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning

Arxiv

0+阅读 · 1月26日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 1月23日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

SpatialNav: Leveraging Spatial Scene Graphs for Zero-Shot Vision-and-Language Navigation

Arxiv

0+阅读 · 1月11日

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Arxiv

0+阅读 · 2025年12月31日

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

【AAAI2025】通过现成的多模态大型语言模型进行零样本视频时刻检索

专知会员服务

17+阅读 · 2025年1月16日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【ICCV2021】通过动作外观对齐的元适应无监督的少样本动作识别

专知会员服务

13+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

35+阅读 · 2021年2月26日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 2月3日

CountZES: Counting via Zero-Shot Exemplar Selection

Arxiv

0+阅读 · 2月3日

StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval

Arxiv

0+阅读 · 1月28日

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

Arxiv

0+阅读 · 1月28日

Induce, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning

Arxiv

0+阅读 · 1月26日

UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

Arxiv

0+阅读 · 1月23日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

SpatialNav: Leveraging Spatial Scene Graphs for Zero-Shot Vision-and-Language Navigation

Arxiv

0+阅读 · 1月11日

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Arxiv

0+阅读 · 2025年12月31日

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree

Arxiv

0+阅读 · 2025年12月30日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员