Electrocardiogram (ECG) digitization-converting paper-based or scanned ECG images back into time-series signals-is critical for leveraging decades of legacy clinical data in modern deep learning applications. However, progress has been hindered by the lack of large-scale datasets providing both ECG images and their corresponding ground truth signals with comprehensive annotations. We introduce PTB-XL-Image-17K, a complete synthetic ECG image dataset comprising 17,271 high-quality 12-lead ECG images generated from the PTB-XL signal database. Our dataset uniquely provides five complementary data types per sample: (1) realistic ECG images with authentic grid patterns and annotations (50% with visible grid, 50% without), (2) pixel-level segmentation masks, (3) ground truth time-series signals, (4) bounding box annotations in YOLO format for both lead regions and lead name labels, and (5) comprehensive metadata including visual parameters and patient information. We present an open-source Python framework enabling customizable dataset generation with controllable parameters including paper speed (25/50 mm/s), voltage scale (5/10 mm/mV), sampling rate (500 Hz), grid appearance (4 colors), and waveform characteristics. The dataset achieves 100% generation success rate with an average processing time of 1.35 seconds per sample. PTB-XL-Image-17K addresses critical gaps in ECG digitization research by providing the first large-scale resource supporting the complete pipeline: lead detection, waveform segmentation, and signal extraction with full ground truth for rigorous evaluation. The dataset, generation framework, and documentation are publicly available at https://github.com/naqchoalimehdi/PTB-XL-Image-17K and https://doi.org/10.5281/zenodo.18197519.


翻译:心电图数字化——将纸质或扫描的心电图图像转换回时间序列信号——对于在现代深度学习应用中利用数十年的历史临床数据至关重要。然而,由于缺乏同时提供心电图图像及其带有全面标注的对应真实信号的大规模数据集,相关研究进展一直受阻。我们推出了PTB-XL-Image-17K,这是一个完整的合成心电图图像数据集,包含从PTB-XL信号数据库生成的17,271张高质量12导联心电图图像。我们的数据集为每个样本独特地提供了五种互补的数据类型:(1) 具有真实网格线和标注的现实心电图图像(50%带有可见网格,50%无网格),(2) 像素级分割掩码,(3) 真实时间序列信号,(4) YOLO格式的导联区域和导联名称标签的边界框标注,以及(5) 包括视觉参数和患者信息的全面元数据。我们提出了一个开源Python框架,支持通过可控参数进行可定制的数据集生成,这些参数包括走纸速度(25/50 mm/s)、电压标尺(5/10 mm/mV)、采样率(500 Hz)、网格外观(4种颜色)和波形特征。该数据集实现了100%的生成成功率,平均每个样本处理时间为1.35秒。PTB-XL-Image-17K通过提供首个支持完整流程(导联检测、波形分割和信号提取)并带有用于严格评估的完整真实标注的大规模资源,解决了心电图数字化研究中的关键空白。数据集、生成框架和文档已在 https://github.com/naqchoalimehdi/PTB-XL-Image-17K 和 https://doi.org/10.5281/zenodo.18197519 公开提供。

0
下载
关闭预览

相关内容

以数据为中心的图机器学习
专知会员服务
37+阅读 · 2023年9月25日
《深度学习医学图像配准》综述进展
专知会员服务
49+阅读 · 2022年5月9日
专知会员服务
21+阅读 · 2021年6月18日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员