OR-Action: Multi-Role Video Understanding with Fine-Grained Actions - 专知论文

会员服务 ·

0

细粒度 · 粒度 · 视频 · 时序 · 基准 ·

OR-Action: Multi-Role Video Understanding with Fine-Grained Actions

翻译：OR-Action：面向细粒度动作的多角色手术视频理解

Felix Tristram,Ege Özsoy,Christian Benz,Marcel Walch,Ghazal Ghazaei,Nassir Navab

Fine-grained understanding of operating room (OR) activity could enable workflow-aware assistance, yet remains difficult due to clutter, occlusions, and limited sensing. The prevailing approach to model this environment is scene graphs as an interpretable representation of OR interactions. Converting their frame-wise relational predictions into temporally extended, fine-grained actions however, is challenging without explicit temporal modeling. To enable a principled temporal evaluation of current OR understanding methods, we introduce the first action-centric benchmark built on a publicly available ego-exocentric OR dataset by defining a fine-grained, multi-role action taxonomy and generating dense action segments via distillation from ground-truth scene graph state changes. Experiments on this benchmark show that current scene graph prediction methods struggle to model temporal structure, even when adding explicit modeling through Graph Neural Networks. We therefore introduce a vision-only temporal model that outperforms graph-based methods significantly when using all available egocentric video as input. Building on this model we also introduce a novel multi- to single-view feature alignment strategy that improves single-view performance on multi-role action recognition, mitigating the need for extensive egocentric video capture. Benchmark and code will be released upon acceptance.

翻译：手术室活动的细粒度理解有助于实现工作流感知辅助，但由于场景杂乱、遮挡及传感限制，该任务仍面临挑战。当前建模手术室环境的主流方法是采用场景图作为交互过程的可解释表征。然而，若缺乏显式时序建模，将逐帧关系预测转化为时间延展的细粒度动作十分困难。为实现对现有手术室理解方法的原则性时序评估，我们基于公开的自我-外部视角手术室数据集，通过定义细粒度多角色动作分类体系，并利用真实场景图状态变化信息蒸馏生成密集动作片段，构建了首个以动作为核心的基准测试集。在该基准上的实验表明，即使引入图神经网络的显式建模，当前场景图预测方法仍难以有效建模时序结构。为此，我们提出纯视觉时序模型，当利用全部可用自中心视角视频作为输入时，其性能显著优于基于图的方法。基于该模型，我们进一步提出一种新颖的多视角到单视角特征对齐策略，该策略可提升单视角场景下多角色动作识别的性能，从而减少对大量自中心视频采集的依赖。基准测试与代码将在论文被接收后公开。

0

相关内容

细粒度

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

9+阅读 · 5月24日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

中国智慧手术室发展与实践白皮书，72页pdf

中国智慧手术室发展与实践白皮书，72页pdf

专知会员服务

39+阅读 · 2024年1月14日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

专知会员服务

26+阅读 · 2019年8月11日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【技术综述】视频分类/行为识别研究综述，从数据集到方法

【技术综述】视频分类/行为识别研究综述，从数据集到方法

极市平台

33+阅读 · 2019年9月20日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

机器之心

16+阅读 · 2019年7月14日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Divide, Deliberate, Decide: A Multi-Agent Framework for Fine-Grained Egocentric Action Recognition

Arxiv

0+阅读 · 6月16日

Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

Arxiv

0+阅读 · 6月15日

VEPHand: View-Efficient Photometric Hand Performance Capture at Scale

Arxiv

0+阅读 · 6月14日

HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

Arxiv

0+阅读 · 6月14日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

MV-Actor: Aligning Multi-View Semantics and Spatial Awareness for Bimanual Manipulation

Arxiv

0+阅读 · 6月9日

Multi-Camera AR Guidance System for Surgical Instrument Handling and Assembly: Investigating Workload and Efficiency

Arxiv

0+阅读 · 6月3日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction

Arxiv

0+阅读 · 5月12日

BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion

Arxiv

0+阅读 · 4月23日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

0+阅读 · 45分钟前

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

1+阅读 · 51分钟前

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

1+阅读 · 53分钟前

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

1+阅读 · 59分钟前

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

11+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

9+阅读 · 5月24日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

中国智慧手术室发展与实践白皮书，72页pdf

中国智慧手术室发展与实践白皮书，72页pdf

专知会员服务

39+阅读 · 2024年1月14日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

专知会员服务

26+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【技术综述】视频分类/行为识别研究综述，从数据集到方法

【技术综述】视频分类/行为识别研究综述，从数据集到方法

极市平台

33+阅读 · 2019年9月20日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

机器之心

16+阅读 · 2019年7月14日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

相关论文

Divide, Deliberate, Decide: A Multi-Agent Framework for Fine-Grained Egocentric Action Recognition

Arxiv

0+阅读 · 6月16日

Training LLMs with Reinforcement Learning over Digital Twin Representations for Reasoning-Intensive Surgical VideoQA

Arxiv

0+阅读 · 6月15日

VEPHand: View-Efficient Photometric Hand Performance Capture at Scale

Arxiv

0+阅读 · 6月14日

HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics

Arxiv

0+阅读 · 6月14日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

MV-Actor: Aligning Multi-View Semantics and Spatial Awareness for Bimanual Manipulation

Arxiv

0+阅读 · 6月9日

Multi-Camera AR Guidance System for Surgical Instrument Handling and Assembly: Investigating Workload and Efficiency

Arxiv

0+阅读 · 6月3日

SimuScene: Simulation-Ready Compositional 3D Scene Reconstruction from a Single Image

Arxiv

0+阅读 · 6月2日

X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction

Arxiv

0+阅读 · 5月12日

BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion

Arxiv

0+阅读 · 4月23日

相关基金

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员