DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion - 专知论文

会员服务 ·

0

去噪 · 动作检测 · 噪声 · 判别式学习 · 解码 ·

2023 年 3 月 27 日

DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion

翻译：DiffTAD：基于提案去噪扩散的时序动作检测

Sauradip Nag,Xiatian Zhu,Jiankang Deng,Yi-Zhe Song,Tao Xiang

from arxiv, Technical Report

We propose a new formulation of temporal action detection (TAD) with denoising diffusion, DiffTAD in short. Taking as input random temporal proposals, it can yield action proposals accurately given an untrimmed long video. This presents a generative modeling perspective, against previous discriminative learning manners. This capability is achieved by first diffusing the ground-truth proposals to random ones (i.e., the forward/noising process) and then learning to reverse the noising process (i.e., the backward/denoising process). Concretely, we establish the denoising process in the Transformer decoder (e.g., DETR) by introducing a temporal location query design with faster convergence in training. We further propose a cross-step selective conditioning algorithm for inference acceleration. Extensive evaluations on ActivityNet and THUMOS show that our DiffTAD achieves top performance compared to previous art alternatives. The code will be made available at https://github.com/sauradip/DiffusionTAD.

翻译：我们提出了一种新的时序动作检测（TAD）方法——DiffTAD，该方法基于去噪扩散框架。通过输入随机时序提案，它能够针对未裁剪的长视频准确生成动作提案。这呈现了一种生成式建模视角，与以往判别式学习方法不同。该能力通过以下方式实现：首先将真实提案扩散为随机提案（即前向/加噪过程），然后学习逆转加噪过程（即反向/去噪过程）。具体而言，我们在Transformer解码器（如DETR）中建立去噪过程，通过引入一种训练中收敛更快的时序位置查询设计。我们进一步提出跨步选择性条件算法以加速推理。在ActivityNet和THUMOS上的广泛评估表明，与现有最佳方法相比，我们的DiffTAD取得了顶级性能。代码将开源在https://github.com/sauradip/DiffusionTAD。

0

相关内容

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

CVPR 2020 论文开源项目合集

专知会员服务

111+阅读 · 2020年3月12日

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

专知会员服务

30+阅读 · 2020年1月10日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

CVPR2019| 9篇CVPR论文开源代码（行人检测/物体检测/3D Face等）

CVPR2019| 9篇CVPR论文开源代码（行人检测/物体检测/3D Face等）

极市平台

12+阅读 · 2019年5月31日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

ECCV2018目标检测（object detection）算法总览（部分含代码）

ECCV2018目标检测（object detection）算法总览（部分含代码）

极市平台

30+阅读 · 2018年12月29日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

基于间断petrov有限元的Trefftz方法及其在雷达散射截面中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

有机／无机杂化钙钛矿光伏器件的电极修饰和性能提高

国家自然科学基金

0+阅读 · 2014年12月31日

Versican 3'-非翻译区(3'-UTR)作为非编码竞争内源性RNA(ceRNA)通过调控MicroRNAs的功能在乳腺癌中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

内质网Ca2+感受器STIM1调控糖尿病冠状动脉平滑肌细胞表型转化的机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于线性贝叶斯MAP估计和稀疏表达模型的图像插值算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于线性调谐宽带CDTA的电流模式连续时间可重构模拟阵列

国家自然科学基金

0+阅读 · 2012年12月31日

阿秒级时间抖动的飞秒光纤激光振荡器

国家自然科学基金

0+阅读 · 2012年12月31日

BEC的保几何结构数值模拟与研究

国家自然科学基金

0+阅读 · 2011年12月31日

压缩采样框架下的自适应稀疏信号感知与重建

国家自然科学基金

0+阅读 · 2009年12月31日

A Generic Approach to Integrating Time into Spatial-Temporal Forecasting via Conditional Neural Fields

Arxiv

0+阅读 · 2023年5月17日

Stochastic Domain Decomposition Based on Variable-Separation Method

Arxiv

0+阅读 · 2023年5月17日

Real-Time Flying Object Detection with YOLOv8

Arxiv

0+阅读 · 2023年5月17日

Evaluation of self-supervised pre-training for automatic infant movement classification using wearable movement sensors

Arxiv

0+阅读 · 2023年5月16日

Efficient Neural Generation of 4K Masks for Homogeneous Diffusion Inpainting

Arxiv

0+阅读 · 2023年5月16日

Towards the Detection of Diffusion Model Deepfakes

Arxiv

0+阅读 · 2023年5月15日

Efficient Adaptive Stochastic Collocation Strategies for Advection-Diffusion Problems with Uncertain Inputs

Arxiv

0+阅读 · 2023年5月12日

Universal Source Separation with Weakly Labelled Data

Arxiv

0+阅读 · 2023年5月11日

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Arxiv

17+阅读 · 2020年3月31日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

VIP会员

文章信息

相关主题

判别式学习

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

CVPR 2020 论文开源项目合集

专知会员服务

111+阅读 · 2020年3月12日

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

专知会员服务

30+阅读 · 2020年1月10日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

CVPR2019| 9篇CVPR论文开源代码（行人检测/物体检测/3D Face等）

CVPR2019| 9篇CVPR论文开源代码（行人检测/物体检测/3D Face等）

极市平台

12+阅读 · 2019年5月31日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

CVPR2019 | 15篇论文速递（涵盖目标检测、语义分割和姿态估计等方向）

AI研习社

15+阅读 · 2019年5月8日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

ECCV2018目标检测（object detection）算法总览（部分含代码）

ECCV2018目标检测（object detection）算法总览（部分含代码）

极市平台

30+阅读 · 2018年12月29日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

相关论文

A Generic Approach to Integrating Time into Spatial-Temporal Forecasting via Conditional Neural Fields

Arxiv

0+阅读 · 2023年5月17日

Stochastic Domain Decomposition Based on Variable-Separation Method

Arxiv

0+阅读 · 2023年5月17日

Real-Time Flying Object Detection with YOLOv8

Arxiv

0+阅读 · 2023年5月17日

Evaluation of self-supervised pre-training for automatic infant movement classification using wearable movement sensors

Arxiv

0+阅读 · 2023年5月16日

Efficient Neural Generation of 4K Masks for Homogeneous Diffusion Inpainting

Arxiv

0+阅读 · 2023年5月16日

Towards the Detection of Diffusion Model Deepfakes

Arxiv

0+阅读 · 2023年5月15日

Efficient Adaptive Stochastic Collocation Strategies for Advection-Diffusion Problems with Uncertain Inputs

Arxiv

0+阅读 · 2023年5月12日

Universal Source Separation with Weakly Labelled Data

Arxiv

0+阅读 · 2023年5月11日

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Arxiv

17+阅读 · 2020年3月31日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

相关基金

基于间断petrov有限元的Trefftz方法及其在雷达散射截面中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

有机／无机杂化钙钛矿光伏器件的电极修饰和性能提高

国家自然科学基金

0+阅读 · 2014年12月31日

Versican 3'-非翻译区(3'-UTR)作为非编码竞争内源性RNA(ceRNA)通过调控MicroRNAs的功能在乳腺癌中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

内质网Ca2+感受器STIM1调控糖尿病冠状动脉平滑肌细胞表型转化的机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于线性贝叶斯MAP估计和稀疏表达模型的图像插值算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于线性调谐宽带CDTA的电流模式连续时间可重构模拟阵列

国家自然科学基金

0+阅读 · 2012年12月31日

阿秒级时间抖动的飞秒光纤激光振荡器

国家自然科学基金

0+阅读 · 2012年12月31日

BEC的保几何结构数值模拟与研究

国家自然科学基金

0+阅读 · 2011年12月31日

压缩采样框架下的自适应稀疏信号感知与重建

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员