CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling - 专知论文

会员服务 ·

0

视频 · 视频理解 · 识别 · 损失 · 视觉语言建模 ·

CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling

翻译：CauCLIP：通过因果启发的视觉语言建模弥合手术视频理解中的仿真与现实差距

Yuxin He,An Li,Cheng Xue

Surgical phase recognition is a critical component for context-aware decision support in intelligent operating rooms, yet training robust models is hindered by limited annotated clinical videos and large domain gaps between synthetic and real surgical data. To address this, we propose CauCLIP, a causality-inspired vision-language framework that leverages CLIP to learn domain-invariant representations for surgical phase recognition without access to target domain data. Our approach integrates a frequency-based augmentation strategy to perturb domain-specific attributes while preserving semantic structures, and a causal suppression loss that mitigates non-causal biases and reinforces causal surgical features. These components are combined in a unified training framework that enables the model to focus on stable causal factors underlying surgical workflows. Experiments on the SurgVisDom hard adaptation benchmark demonstrate that our method substantially outperforms all competing approaches, highlighting the effectiveness of causality-guided vision-language models for domain-generalizable surgical video understanding.

翻译：手术阶段识别是智能手术室中情境感知决策支持的关键组成部分，然而，训练鲁棒模型受到带标注临床视频有限以及合成与真实手术数据之间存在巨大领域差距的阻碍。为解决此问题，我们提出了CauCLIP，一个因果启发的视觉语言框架，它利用CLIP来学习手术阶段识别的领域不变表示，而无需访问目标领域数据。我们的方法集成了一个基于频率的增强策略，以扰动领域特定属性同时保留语义结构，以及一个因果抑制损失，该损失减轻了非因果偏差并强化了因果手术特征。这些组件在一个统一的训练框架中结合，使模型能够专注于手术工作流底层的稳定因果因素。在SurgVisDom硬适应基准上的实验表明，我们的方法显著优于所有竞争方法，凸显了因果引导的视觉语言模型在领域可泛化手术视频理解方面的有效性。

0

相关内容

视频

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

专知会员服务

21+阅读 · 2024年10月27日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【帝国理工学院】医疗影像中「因果性」至关重要，Glocker这52页ppt讲述医疗机器学习因果性

【帝国理工学院】医疗影像中「因果性」至关重要，Glocker这52页ppt讲述医疗机器学习因果性

专知会员服务

51+阅读 · 2020年3月15日

【医学图像处理中的因果性】52页ppt，Causality Matters in Medical Imaging

【医学图像处理中的因果性】52页ppt，Causality Matters in Medical Imaging

专知会员服务

60+阅读 · 2020年3月14日

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

专知会员服务

30+阅读 · 2019年12月10日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【仿真+AI】浅谈AI在CAE领域的应用

【仿真+AI】浅谈AI在CAE领域的应用

产业智能官

13+阅读 · 2019年12月7日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【仿真】国内外CAE软件的差距及自主路

【仿真】国内外CAE软件的差距及自主路

产业智能官

32+阅读 · 2018年12月20日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

Clinically Aware Synthetic Image Generation for Concept Coverage in Chest X-ray Models

Clinically Aware Synthetic Image Generation for Concept Coverage in Chest X-ray Models

Arxiv

0+阅读 · 3月16日

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Arxiv

0+阅读 · 2月20日

SurgRAW: Multi-Agent Workflow with Chain of Thought Reasoning for Robotic Surgical Video Analysis

Arxiv

0+阅读 · 2月18日

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments

Arxiv

0+阅读 · 2月10日

Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation

Arxiv

0+阅读 · 2月9日

VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models

Arxiv

0+阅读 · 2月9日

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Arxiv

0+阅读 · 2月9日

CauScale: Neural Causal Discovery at Scale

Arxiv

0+阅读 · 2月9日

CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios

Arxiv

0+阅读 · 2月8日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

视觉语言建模

最新内容

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

0+阅读 · 40分钟前

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

4+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

3+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

11+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

12+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

14+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

相关VIP内容

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

专知会员服务

21+阅读 · 2024年10月27日

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

【NeurIPS2024】基于分层知识增强的手术流程感知视频-语言预训练

专知会员服务

19+阅读 · 2024年10月3日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【帝国理工学院】医疗影像中「因果性」至关重要，Glocker这52页ppt讲述医疗机器学习因果性

【帝国理工学院】医疗影像中「因果性」至关重要，Glocker这52页ppt讲述医疗机器学习因果性

专知会员服务

51+阅读 · 2020年3月15日

【医学图像处理中的因果性】52页ppt，Causality Matters in Medical Imaging

【医学图像处理中的因果性】52页ppt，Causality Matters in Medical Imaging

专知会员服务

60+阅读 · 2020年3月14日

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

【NeurIPS2019】模仿学习中的因果混乱问题 Causal Confusion in Imitation Learning

专知会员服务

30+阅读 · 2019年12月10日

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

【CoRL2019最佳论文】模仿学习，A Divergence Minimization Perspective on Imitation Learning Methods

专知会员服务

24+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

乌克兰前线的五项创新

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

高效视频扩散模型：进展与挑战

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

专家报告 | 给“深度”以“先验”，让你的模糊图像清晰起来！

中国图象图形学报

15+阅读 · 2020年6月23日

【仿真+AI】浅谈AI在CAE领域的应用

【仿真+AI】浅谈AI在CAE领域的应用

产业智能官

13+阅读 · 2019年12月7日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【仿真】国内外CAE软件的差距及自主路

【仿真】国内外CAE软件的差距及自主路

产业智能官

32+阅读 · 2018年12月20日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

Clinically Aware Synthetic Image Generation for Concept Coverage in Chest X-ray Models

Clinically Aware Synthetic Image Generation for Concept Coverage in Chest X-ray Models

Arxiv

0+阅读 · 3月16日

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Arxiv

0+阅读 · 2月20日

SurgRAW: Multi-Agent Workflow with Chain of Thought Reasoning for Robotic Surgical Video Analysis

Arxiv

0+阅读 · 2月18日

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments

Arxiv

0+阅读 · 2月10日

Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation

Arxiv

0+阅读 · 2月9日

VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models

Arxiv

0+阅读 · 2月9日

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

Arxiv

0+阅读 · 2月9日

CauScale: Neural Causal Discovery at Scale

Arxiv

0+阅读 · 2月9日

CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios

Arxiv

0+阅读 · 2月8日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员