A Two-stage Transformer Framework for Temporal Localization of Distracted Driver Behaviors - 专知论文

会员服务 ·

0

A Two-stage Transformer Framework for Temporal Localization of Distracted Driver Behaviors

翻译：一种面向分心驾驶行为时序定位的两阶段Transformer框架

Gia-Bao Doan,Nam-Khoa Huynh,Minh-Nhat-Huy Ho,Khanh-Thanh-Khoa Nguyen,Thanh-Hai Le

from arxiv, 25 pages, 14 figures

The identification of hazardous driving behaviors from in-cabin video streams is essential for enhancing road safety and supporting the detection of traffic violations and unsafe driver actions. However, current temporal action localization techniques often struggle to balance accuracy with computational efficiency. In this work, we develop and evaluate a temporal action localization framework tailored for driver monitoring scenarios, particularly suitable for periodic inspection settings such as transportation safety checkpoints or fleet management assessment systems. Our approach follows a two-stage pipeline that combines VideoMAE-based feature extraction with an Augmented Self-Mask Attention (AMA) detector, enhanced by a Spatial Pyramid Pooling-Fast (SPPF) module to capture multi-scale temporal features. Experimental results reveal a distinct trade-off between model capacity and efficiency. At the feature extraction stage, the ViT-Giant backbone delivers higher representations with 88.09% Top-1 test accuracy, while the ViT-based variant proves to be a practical alternative, achieving 82.55% accuracy with significantly lower computational fine-tuning costs (101.85 GFLOPs/segment compared to 1584.06 GFLOPs/segment for Giant). In the downstream localization task, the integration of SPPF consistently improves performance across all configurations. Notably, the ViT-Giant + SPPF model achieves a peak mAP of 92.67%, while the lightweight ViT-based configuration maintains robust results.

翻译：从车载视频流中识别危险驾驶行为对于提升道路安全、支持交通违法行为检测及不安全驾驶行为识别至关重要。然而，现有的时序动作定位技术在准确性与计算效率之间往往难以实现平衡。本研究开发并评估了一种专为驾驶员监控场景设计的时序动作定位框架，特别适用于周期性检测场景（如交通安全检查点或车队管理系统）。该方法采用两阶段流水线架构，结合基于VideoMAE的特征提取与增强型自掩码注意力检测器，并通过空间金字塔池化快速模块捕获多尺度时序特征。实验结果表明模型能力与效率间存在显著权衡：在特征提取阶段，ViT-Giant骨干网络以88.09%的Top-1测试准确率提供更高表征能力，而基于ViT的变体以显著更低的计算微调成本（101.85 GFLOPs/片段 vs. Giant模型的1584.06 GFLOPs/片段）实现82.55%准确率，成为实用替代方案。在下游定位任务中，SPPF模块的集成持续提升所有配置的性能表现。值得注意的是，ViT-Giant + SPPF模型实现92.67%的最高平均精度均值，而轻量级ViT配置仍保持稳健结果。

0

相关内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

21+阅读 · 2025年5月30日

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

33+阅读 · 2025年5月8日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

专知会员服务

40+阅读 · 2023年1月30日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

88+阅读 · 2022年11月30日

Transformers如何进行时序分析？Rowan大学最新《Transformers时序分析》综述

Transformers如何进行时序分析？Rowan大学最新《Transformers时序分析》综述

专知会员服务

86+阅读 · 2022年5月5日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

车辆目标检测

车辆目标检测

数据挖掘入门与实战

30+阅读 · 2018年3月30日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

面向交通流微观结构的时空特征子空间分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于个体行为特征的时效网络中传播源定位研究

国家自然科学基金

0+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

驾驶行为与交通安全状态交互作用机理研究

国家自然科学基金

2+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

Connected Dependability Cage: Run-Time Function and Anomaly Monitoring for the Development and Operation of Safe Automated Vehicles

Arxiv

0+阅读 · 4月30日

Robust Real-Time Coordination of CAVs: A Distributed Optimization Framework under Uncertainty

Arxiv

0+阅读 · 4月17日

Self-Discovered Intention-aware Transformer for Multi-modal Vehicle Trajectory Prediction

Arxiv

0+阅读 · 4月8日

Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning

Arxiv

0+阅读 · 4月1日

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

Arxiv

0+阅读 · 3月27日

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Arxiv

0+阅读 · 3月26日

PoseDriver: A Unified Approach to Multi-Category Skeleton Detection for Autonomous Driving

Arxiv

0+阅读 · 3月25日

Long-Horizon Traffic Forecasting via Incident-Aware Conformal Spatio-Temporal Transformers

Arxiv

0+阅读 · 3月17日

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

Arxiv

0+阅读 · 3月13日

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

Arxiv

0+阅读 · 2月28日

VIP会员

文章信息

相关主题

最新内容

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

1+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

1+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

人工智能如何变革军事C5ISR作战

人工智能如何变革军事C5ISR作战

专知会员服务

12+阅读 · 5月8日

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

专知会员服务

8+阅读 · 5月8日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

21+阅读 · 2025年5月30日

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

33+阅读 · 2025年5月8日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

专知会员服务

40+阅读 · 2023年1月30日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

88+阅读 · 2022年11月30日

Transformers如何进行时序分析？Rowan大学最新《Transformers时序分析》综述

Transformers如何进行时序分析？Rowan大学最新《Transformers时序分析》综述

专知会员服务

86+阅读 · 2022年5月5日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

车辆目标检测

车辆目标检测

数据挖掘入门与实战

30+阅读 · 2018年3月30日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

相关论文

Connected Dependability Cage: Run-Time Function and Anomaly Monitoring for the Development and Operation of Safe Automated Vehicles

Arxiv

0+阅读 · 4月30日

Robust Real-Time Coordination of CAVs: A Distributed Optimization Framework under Uncertainty

Arxiv

0+阅读 · 4月17日

Self-Discovered Intention-aware Transformer for Multi-modal Vehicle Trajectory Prediction

Arxiv

0+阅读 · 4月8日

Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning

Arxiv

0+阅读 · 4月1日

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

Arxiv

0+阅读 · 3月27日

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Arxiv

0+阅读 · 3月26日

PoseDriver: A Unified Approach to Multi-Category Skeleton Detection for Autonomous Driving

Arxiv

0+阅读 · 3月25日

Long-Horizon Traffic Forecasting via Incident-Aware Conformal Spatio-Temporal Transformers

Arxiv

0+阅读 · 3月17日

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

Arxiv

0+阅读 · 3月13日

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

Arxiv

0+阅读 · 2月28日

相关基金

面向交通流微观结构的时空特征子空间分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于个体行为特征的时效网络中传播源定位研究

国家自然科学基金

0+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

驾驶行为与交通安全状态交互作用机理研究

国家自然科学基金

2+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员