注意力机制在视频分类中应用于三维模型的效果研究 (Effects of Different Attention Mechanisms Applied on 3D Models in Video Classification) - 专知论文

会员服务 ·

0

卷积 · 时序 · 注意力机制 · 视频 · 视频分类 ·

Effects of Different Attention Mechanisms Applied on 3D Models in Video Classification

翻译：注意力机制在视频分类中应用于三维模型的效果研究

Mohammad Rasras,Iuliana Marin,Serban Radu,Irina Mocanu

from arxiv, 18 pages, 6 figures, conference

Human action recognition has become an important research focus in computer vision due to the wide range of applications where it is used. 3D Resnet-based CNN models, particularly MC3, R3D, and R(2+1)D, have different convolutional filters to extract spatiotemporal features. This paper investigates the impact of reducing the captured knowledge from temporal data, while increasing the resolution of the frames. To establish this experiment, we created similar designs to the three originals, but with a dropout layer added before the final classifier. Secondly, we then developed ten new versions for each one of these three designs. The variants include special attention blocks within their architecture, such as convolutional block attention module (CBAM), temporal convolution networks (TCN), in addition to multi-headed and channel attention mechanisms. The purpose behind that is to observe the extent of the influence each of these blocks has on performance for the restricted-temporal models. The results of testing all the models on UCF101 have shown accuracy of 88.98% for the variant with multiheaded attention added to the modified R(2+1)D. This paper concludes the significance of missing temporal features in the performance of the newly created increased resolution models. The variants had different behavior on class-level accuracy, despite the similarity of their enhancements to the overall performance.

翻译：人类行为识别因其广泛的应用场景已成为计算机视觉领域的重要研究方向。基于三维残差网络的卷积神经网络模型，特别是MC3、R3D和R(2+1)D，采用不同的卷积滤波器提取时空特征。本文研究了在提升帧分辨率的同时减少从时序数据中捕获知识所产生的影响。为开展实验，我们首先参照三种原始模型创建了类似结构，但在最终分类器前加入了丢弃层。其次，我们为这三种设计各自开发了十个新版本。这些变体在架构中引入了特殊注意力模块，包括卷积块注意力模块（CBAM）、时序卷积网络（TCN），以及多头注意力和通道注意力机制。此举旨在观察这些模块对时序受限模型性能的影响程度。在UCF101数据集上测试所有模型的结果表明，在改进的R(2+1)D模型中添加多头注意力的变体达到了88.98%的准确率。本文论证了缺失时序特征对新建高分辨率模型性能的重要影响。尽管各变体在整体性能上的改进相似，但在类别级准确率上表现出不同的行为特征。

0

相关内容

在数学（特别是功能分析）中，卷积是对两个函数（f和g）的数学运算，产生三个函数，表示第一个函数的形状如何被另一个函数修改。卷积一词既指结果函数，又指计算结果的过程。它定义为两个函数的乘积在一个函数反转和移位后的积分。并针对所有shift值评估积分，从而生成卷积函数。

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

25+阅读 · 2023年9月7日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

88+阅读 · 2022年11月30日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

独家 | 光流与行为识别的结合研究

独家 | 光流与行为识别的结合研究

AI科技评论

12+阅读 · 2017年12月29日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

认知下视雷达空时滤波的几何机制与流形上的优化方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Model Optimization for Multi-Camera 3D Detection and Tracking

Arxiv

0+阅读 · 2月3日

Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks

Arxiv

0+阅读 · 2月3日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation

Arxiv

0+阅读 · 1月27日

Cell Behavior Video Classification Challenge, a benchmark for computer vision methods in time-lapse microscopy

Arxiv

0+阅读 · 1月15日

Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

Arxiv

0+阅读 · 1月14日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

Efficient 3D affinely equivariant CNNs with adaptive fusion of augmented spherical Fourier-Bessel bases

Arxiv

0+阅读 · 1月7日

A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

注意力机制

最新内容

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

2+阅读 · 53分钟前

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

6+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

3+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

2+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

1+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

4+阅读 · 4月15日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

1+阅读 · 4月15日

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

4+阅读 · 4月15日

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

3+阅读 · 4月15日

《采用系统思维应对混合战争》125页

《采用系统思维应对混合战争》125页

专知会员服务

5+阅读 · 4月15日

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

8+阅读 · 4月15日

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

3+阅读 · 4月15日

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

16+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

6+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

相关VIP内容

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

33+阅读 · 2024年10月9日

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

军事目标分类《利用相邻视频帧提高卷积神经网络在压力环境下的分类鲁棒性》美陆军2023最新报告

专知会员服务

25+阅读 · 2023年9月7日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

88+阅读 · 2022年11月30日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

基于深度神经网络的高效视觉识别研究进展与新方向

基于深度神经网络的高效视觉识别研究进展与新方向

专知会员服务

40+阅读 · 2021年8月31日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

美陆军设想无人系统司令部

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

独家 | 光流与行为识别的结合研究

独家 | 光流与行为识别的结合研究

AI科技评论

12+阅读 · 2017年12月29日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Model Optimization for Multi-Camera 3D Detection and Tracking

Arxiv

0+阅读 · 2月3日

Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks

Arxiv

0+阅读 · 2月3日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation

Arxiv

0+阅读 · 1月27日

Cell Behavior Video Classification Challenge, a benchmark for computer vision methods in time-lapse microscopy

Arxiv

0+阅读 · 1月15日

Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

Arxiv

0+阅读 · 1月14日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

Efficient 3D affinely equivariant CNNs with adaptive fusion of augmented spherical Fourier-Bessel bases

Arxiv

0+阅读 · 1月7日

A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets

Arxiv

0+阅读 · 1月5日

相关基金

认知下视雷达空时滤波的几何机制与流形上的优化方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员