Automated classification of standard echocardiographic views is crucial for efficient clinical workflow but faces three main challenges. First, publicly available datasets are scarce and limited in scale and view coverage. Second, the performance of some modern video-level architectures for echocardiographic view classification remains underexplored. Third, some view categories exhibit highly similar spatial appearances, making single-frame features insufficient for discrimination, while heterogeneous frame quality complicates robust temporal information fusion. To address these challenges, we release the Echocardiographic Videos of Nine Views (EV9V) dataset, comprising 5,138 videos, 910,579 frames, and 9 standard views, which is, to the best of our knowledge, the largest publicly available echocardiography video dataset. Using EV9V, we systematically benchmark representative video classification architectures, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Transformers. Furthermore, we propose a Spatio-Temporal Fusion Model (STFM), an efficient dual-stream CNN-LSTM (Long Short-Term Memory) framework that jointly captures spatial anatomical structures and temporal cardiac dynamics. The proposed framework leverages uncertainty-aware learning to preferentially sample representative video segments during training and evidence-based fusion during inference, improving robustness to variations in frame quality across echocardiographic videos. Extensive experiments demonstrate that our method achieves competitive performance across diverse video classification models, validating the effectiveness of uncertainty-aware spatio-temporal learning for echocardiographic view classification. The code is available at https://github.com/bgx666/stfm.


翻译:超声心动图标准切面的自动分类对于优化临床工作流程至关重要,但面临三大挑战:首先,公开数据集稀缺且规模有限,切面覆盖不足;其次,部分现代视频级架构在超声心动图切面分类中的性能尚未充分探索;第三,某些切面类别在空间外观上高度相似,单帧特征不足以区分,而异质性帧质量又增加了鲁棒时间信息融合的难度。为应对这些挑战,我们发布了九切面超声心动图视频数据集(EV9V),包含5,138个视频、910,579帧和9个标准切面,据我们所知,这是目前最大的公开超声心动图视频数据集。基于EV9V,我们系统性地基准测试了代表性视频分类架构,包括卷积神经网络(CNN)、循环神经网络(RNN)和Transformer。此外,我们提出时空融合模型(STFM)——一种高效的双流CNN-LSTM(长短期记忆)框架,可联合捕获空间解剖结构与时间心脏动力学。该框架利用不确定性感知学习在训练中优先采样代表性视频片段,并在推理时通过基于证据的融合,提升对超声心动图视频帧质量变化的鲁棒性。大量实验表明,本方法在多种视频分类模型中均取得具有竞争力的性能,验证了不确定性感知时空学习在超声心动图切面分类中的有效性。代码已发布于https://github.com/bgx666/stfm。

0
下载
关闭预览

相关内容

基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
Transformer 驱动的图像分类研究进展综述
专知会员服务
55+阅读 · 2023年2月24日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
图像分类的深度卷积神经网络模型综述
专知会员服务
57+阅读 · 2021年10月29日
专知会员服务
50+阅读 · 2021年8月28日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员