YUV20K: A Complexity-Driven Benchmark and Trajectory-Aware Alignment Model for Video Camouflaged Object Detection - 专知论文

会员服务 ·

0

基准 · 数据集 · 对齐 · 视频 · 伪装目标检测 ·

YUV20K: A Complexity-Driven Benchmark and Trajectory-Aware Alignment Model for Video Camouflaged Object Detection

翻译：YUV20K：面向视频伪装目标检测的复杂度驱动基准与轨迹感知对齐模型

Yiyu Liu,Shuo Ye,Chao Hao,Zitong Yu

Video Camouflaged Object Detection (VCOD) is currently constrained by the scarcity of challenging benchmarks and the limited robustness of models against erratic motion dynamics. Existing methods often struggle with Motion-Induced Appearance Instability and Temporal Feature Misalignment caused by complex motion scenarios. To address the data bottleneck, we present YUV20K, a pixel-level annoated complexity-driven VCOD benchmark. Comprising 24,295 annotated frames across 91 scenes and 47 kinds of species, it specifically targets challenging scenarios like large-displacement motion, camera motion and other 4 types scenarios. On the methodological front, we propose a novel framework featuring two key modules: Motion Feature Stabilization (MFS) and Trajectory-Aware Alignment (TAA). The MFS module utilizes frame-agnostic Semantic Basis Primitives to stablize features, while the TAA module leverages trajectory-guided deformable sampling to ensure precise temporal alignment. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art competitors on existing datasets and establishes a new baseline on the challenging YUV20K. Notably, our framework exhibits superior cross-domain generalization and robustness when confronting complex spatiotemporal scenarios. Our code and dataset will be available at https://github.com/K1NSA/YUV20K

翻译：视频伪装目标检测（VCOD）目前受限于挑战性基准的稀缺以及模型应对复杂运动动力学的鲁棒性不足。现有方法常因复杂运动场景导致的运动诱发外观不稳定性和时序特征错位而难以有效处理。为缓解数据瓶颈，我们提出YUV20K——一个基于像素级标注、复杂度驱动的VCOD基准数据集。该数据集包含覆盖91个场景、47种物种的24,295个标注帧，专门针对大位移运动、相机运动等4类挑战性场景。在方法层面，我们提出了一种包含运动特征稳定化（MFS）与轨迹感知对齐（TAA）两个关键模块的新型框架。MFS模块通过利用与帧无关的语义基元来稳定特征，而TAA模块则借助轨迹引导的可变形采样实现精确的时序对齐。大量实验表明，我们的方法在现有数据集上显著超越最优竞争方法，并在高挑战性的YUV20K数据集上确立了新的基准。值得注意的是，本框架在应对复杂时空场景时展现出优异的跨域泛化能力与鲁棒性。相关代码与数据集将开源至https://github.com/K1NSA/YUV20K。

0

相关内容

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

专知会员服务

17+阅读 · 2025年10月28日

基于深度学习模型的图像军事目标检测

基于深度学习模型的图像军事目标检测

专知会员服务

25+阅读 · 2025年10月18日

《基于深度学习模型的图像军事目标检测》

《基于深度学习模型的图像军事目标检测》

专知会员服务

29+阅读 · 2025年6月28日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

伪装目标检测及其扩展的综述

伪装目标检测及其扩展的综述

专知会员服务

22+阅读 · 2024年9月1日

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【ICCV2021】多视角多尺度监督的图像篡改检测模型

专知会员服务

23+阅读 · 2021年9月23日

基于深度学习的视频目标检测综述

基于深度学习的视频目标检测综述

专知会员服务

84+阅读 · 2021年5月19日

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

计算机视觉life

24+阅读 · 2020年11月10日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【下载】PyTorch 实现的YOLO v2目标检测算法

【下载】PyTorch 实现的YOLO v2目标检测算法

专知

15+阅读 · 2017年12月27日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于RFID异常事件检测和转移信用模型的热带农产品可视化智能防伪新方法及案例研究

国家自然科学基金

0+阅读 · 2014年12月31日

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Arxiv

0+阅读 · 4月29日

CAMotion: A High-Quality Benchmark for Camouflaged Moving Object Detection in the Wild

Arxiv

0+阅读 · 4月9日

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

Arxiv

0+阅读 · 4月8日

Conditional Polarization Guidance for Camouflaged Object Detection

Arxiv

0+阅读 · 3月31日

TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection

Arxiv

0+阅读 · 3月28日

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Arxiv

0+阅读 · 3月27日

PoseDriver: A Unified Approach to Multi-Category Skeleton Detection for Autonomous Driving

Arxiv

0+阅读 · 3月24日

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Arxiv

0+阅读 · 3月24日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

伪装目标检测

最新内容

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

1+阅读 · 46分钟前

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

1+阅读 · 50分钟前

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

1+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

2+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

3+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

1+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

相关VIP内容

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

【ICCV2025教程】视觉异常检测中的基础模型：进展、挑战与应用

专知会员服务

17+阅读 · 2025年10月28日

基于深度学习模型的图像军事目标检测

基于深度学习模型的图像军事目标检测

专知会员服务

25+阅读 · 2025年10月18日

《基于深度学习模型的图像军事目标检测》

《基于深度学习模型的图像军事目标检测》

专知会员服务

29+阅读 · 2025年6月28日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

伪装目标检测及其扩展的综述

伪装目标检测及其扩展的综述

专知会员服务

22+阅读 · 2024年9月1日

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

遥感目标检测进展如何？西电等最新《深度学习遥感目标检测》综述，涵盖300多篇文献详述五大类型技术

专知会员服务

55+阅读 · 2023年9月15日

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

【CVPR2022】自动驾驶中的伪双目三维目标检测，Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

专知会员服务

18+阅读 · 2022年3月19日

【ICCV2021】多视角多尺度监督的图像篡改检测模型

专知会员服务

23+阅读 · 2021年9月23日

基于深度学习的视频目标检测综述

基于深度学习的视频目标检测综述

专知会员服务

84+阅读 · 2021年5月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

北约《俄乌战争经验教训课程指南：25份课程计划》150页

首场人工智能战争——俄乌战争（中文版、原文下载）

相关资讯

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

YOLOv5在建筑工地中安全帽佩戴检测的应用（已开源+数据集）

计算机视觉life

24+阅读 · 2020年11月10日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【下载】PyTorch 实现的YOLO v2目标检测算法

【下载】PyTorch 实现的YOLO v2目标检测算法

专知

15+阅读 · 2017年12月27日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

相关论文

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Arxiv

0+阅读 · 4月29日

CAMotion: A High-Quality Benchmark for Camouflaged Moving Object Detection in the Wild

Arxiv

0+阅读 · 4月9日

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

Arxiv

0+阅读 · 4月8日

Conditional Polarization Guidance for Camouflaged Object Detection

Arxiv

0+阅读 · 3月31日

TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection

Arxiv

0+阅读 · 3月28日

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Arxiv

0+阅读 · 3月27日

PoseDriver: A Unified Approach to Multi-Category Skeleton Detection for Autonomous Driving

Arxiv

0+阅读 · 3月24日

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Arxiv

0+阅读 · 3月24日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks

Arxiv

0+阅读 · 2月20日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于RFID异常事件检测和转移信用模型的热带农产品可视化智能防伪新方法及案例研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员