Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation - 专知论文

会员服务 ·

0

识别 · 活动识别 · 视频 · 语言模型 · 视觉Transformer ·

Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation

翻译：局部视觉语言模型能否超越视觉Transformer提升活动识别能力？——以新生儿复苏为例

Enrico Guerriero,Kjersti Engan,Øyvind Meinich-Bache

from arxiv, Presented at the Satellite Workshop on Workshop 15: Generative AI for World Simulations and Communications & Celebrating 40 Years of Excellence in Education: Honoring Professor Aggelos Katsaggelos, IEEE International Conference on Image Processing (ICIP), 2025

Accurate documentation of newborn resuscitation is essential for quality improvement and adherence to clinical guidelines, yet remains underutilized in practice. Previous work using 3D-CNNs and Vision Transformers (ViT) has shown promising results in detecting key activities from newborn resuscitation videos, but also highlighted the challenges in recognizing such fine-grained activities. This work investigates the potential of generative AI (GenAI) methods to improve activity recognition from such videos. Specifically, we explore the use of local vision-language models (VLMs), combined with large language models (LLMs), and compare them to a supervised TimeSFormer baseline. Using a simulated dataset comprising 13.26 hours of newborn resuscitation videos, we evaluate several zero-shot VLM-based strategies and fine-tuned VLMs with classification heads, including Low-Rank Adaptation (LoRA). Our results suggest that small (local) VLMs struggle with hallucinations, but when fine-tuned with LoRA, the results reach F1 score at 0.91, surpassing the TimeSformer results of 0.70.

翻译：准确记录新生儿复苏过程对于质量改进和遵循临床指南至关重要，但在实践中仍未得到充分利用。先前使用3D-CNN和视觉Transformer（ViT）的研究在从新生儿复苏视频中检测关键活动方面已显示出有希望的结果，但也凸显了识别此类细粒度活动所面临的挑战。本研究探讨了生成式人工智能（GenAI）方法在改进此类视频活动识别方面的潜力。具体而言，我们探索了局部视觉语言模型（VLM）与大型语言模型（LLM）的结合使用，并将其与有监督的TimeSFormer基线模型进行比较。利用包含13.26小时新生儿复苏视频的模拟数据集，我们评估了多种基于零样本VLM的策略以及带有分类头（包括低秩自适应LoRA）的微调VLM。我们的结果表明，小型（局部）VLM存在幻觉问题，但当使用LoRA进行微调后，其F1分数达到0.91，超越了TimeSformer的0.70结果。

0

相关内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【万字长文】视觉Transformer语义分割模型综述

【万字长文】视觉Transformer语义分割模型综述

专知会员服务

56+阅读 · 2024年1月2日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

Arxiv

0+阅读 · 3月1日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

Evaluating Graphical Perception Capabilities of Vision Transformers

Arxiv

0+阅读 · 2月20日

Simple Self Organizing Map with Vision Transformers

Arxiv

0+阅读 · 2月18日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Block-Recurrent Dynamics in Vision Transformers

Arxiv

0+阅读 · 2月9日

Same or Not? Enhancing Visual Perception in Vision-Language Models

Arxiv

0+阅读 · 2月4日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

6+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

4+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

8+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【万字长文】视觉Transformer语义分割模型综述

【万字长文】视觉Transformer语义分割模型综述

专知会员服务

56+阅读 · 2024年1月2日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

相关论文

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

Arxiv

0+阅读 · 3月1日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

Evaluating Graphical Perception Capabilities of Vision Transformers

Arxiv

0+阅读 · 2月20日

Simple Self Organizing Map with Vision Transformers

Arxiv

0+阅读 · 2月18日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

VariViT: A Vision Transformer for Variable Image Sizes

Arxiv

0+阅读 · 2月16日

Block-Recurrent Dynamics in Vision Transformers

Arxiv

0+阅读 · 2月9日

Same or Not? Enhancing Visual Perception in Vision-Language Models

Arxiv

0+阅读 · 2月4日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

VAT: Vision Action Transformer by Unlocking Full Representation of ViT

Arxiv

0+阅读 · 1月30日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员