ReCoVR: Closing the Loop in Interactive Composed Video Retrieval - 专知论文

会员服务 ·

0

INTERACT · 环 · Extensibility · 情景 · 通道 ·

ReCoVR: Closing the Loop in Interactive Composed Video Retrieval

翻译：暂无翻译

Bingqing Zhang,Yi Zhang,Zhuo Cao,Yang Li,Xue Li,Jiajun Liu,Sen Wang

Composed video retrieval (CoVR) searches for target videos using a reference video and a modification text, but existing methods are restricted to a single interaction round and cannot support the progressive nature of real-world visual search. To bridge this gap, we first formalize interactive composed video retrieval, a multi-turn extension of CoVR, where users progressively refine their search intent through natural-language feedback across turns. Adapting existing interactive retrieval methods to this setting reveals two structural weaknesses: reliance on a single retrieval channel and an open-loop retrieval design that consumes user feedback but does not diagnose whether its own retrieval trajectory is drifting or stagnating. To address these limitations, we propose ReCoVR (Reflexive Composed Video Retrieval), a dual-pathway architecture built on reflexive perception, where the system treats its retrieval history as diagnostic evidence alongside user feedback. Specifically, an Intent Pathway routes heterogeneous feedback to complementary retrieval channels, while a Reflection Pathway performs trajectory-level reflection to monitor result evolution and correct retrieval errors across turns. Experiments on multiple benchmarks show that ReCoVR consistently outperforms interactive baselines, notably achieving 74.30% R@1 after just one interactive round on the WebVid-CoVR-Test dataset.

翻译：暂无翻译

0

相关内容

INTERACT

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来，这些会议吸引了来自几个国家和文化的研究人员。官网链接：http://interact2019.org/

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

AI前线

12+阅读 · 2018年5月13日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

Memento: Reconstruct to Remember for Consistent Long Video Generation

Arxiv

0+阅读 · 6月12日

Driving Video Retrieval for Complex Queries with Structured Grounding

Arxiv

0+阅读 · 6月8日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 5月28日

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval

Arxiv

0+阅读 · 5月25日

Text-Video Retrieval With Global-Local Contrastive Consistency Learning

Arxiv

0+阅读 · 5月18日

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

Arxiv

0+阅读 · 5月18日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

2+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

4+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

13+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

4+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

8+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

20+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

9+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

8+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2019视频描述（video caption）相关论文总结

CVPR 2019视频描述（video caption）相关论文总结

极市平台

36+阅读 · 2019年10月16日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

STRCF for Visual Object Tracking

STRCF for Visual Object Tracking

统计学习与视觉计算组

15+阅读 · 2018年5月29日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

AI前线

12+阅读 · 2018年5月13日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

Memento: Reconstruct to Remember for Consistent Long Video Generation

Arxiv

0+阅读 · 6月12日

Driving Video Retrieval for Complex Queries with Structured Grounding

Arxiv

0+阅读 · 6月8日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 5月28日

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval

Arxiv

0+阅读 · 5月25日

Text-Video Retrieval With Global-Local Contrastive Consistency Learning

Arxiv

0+阅读 · 5月18日

AdaptiveLoad: Towards Efficient Video Diffusion Transformer Training

Arxiv

0+阅读 · 5月18日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员