In Computed Tomography, machine learning is often used for automated data processing. However, increasing model complexity is accompanied by increasingly large volume datasets, which in turn increases the cost of model training. Unlike most work that mitigates this by advancing model architectures and training algorithms, we consider the annotation procedure and its effect on the model performance. We assume three main virtues of a good dataset collected for a model training to be label quality, diversity, and completeness. We compare the effects of those virtues on the model performance using open medical CT datasets and conclude, that quality is more important than diversity early during labeling; the diversity, in turn, is more important than completeness. Based on this conclusion and additional experiments, we propose a labeling procedure for the segmentation of tomographic images to minimize efforts spent on labeling while maximizing the model performance.


翻译:在计算机断层扫描中,机器学习常被用于自动化数据处理。然而,模型复杂度的提升伴随着数据集的日益庞大,进而增加了模型训练的成本。与大多数通过改进模型架构和训练算法来缓解这一问题的研究不同,我们关注的是标注流程及其对模型性能的影响。我们假设用于模型训练的优秀数据集应具备三个主要特征:标注质量、多样性和完整性。通过使用开放式医学CT数据集比较这些特征对模型性能的影响,我们得出结论:在标注初期,质量比多样性更为重要;而多样性又比完整性更为重要。基于这一结论及额外实验,我们针对断层图像分割提出了一种标注流程,旨在最小化标注工作量的同时最大化模型性能。

0
下载
关闭预览

相关内容

【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
专知会员服务
63+阅读 · 2020年3月4日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月16日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
最新内容
《基于深度强化学习的反无人机技术研究》178页
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
3+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
0+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
13+阅读 · 6月10日
《利用人工智能增强军事决策》
专知会员服务
5+阅读 · 6月10日
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
7+阅读 · 6月10日
为何指挥所生存能力要求范式转变
专知会员服务
5+阅读 · 6月10日
打造“新蛛网”模式与高科技动员
专知会员服务
4+阅读 · 6月10日
“蛛网”行动一周年:远程无人机战争
专知会员服务
3+阅读 · 6月10日
【剑桥博士论文】智能体-环境协同优化
专知会员服务
8+阅读 · 6月9日
相关VIP内容
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
专知会员服务
63+阅读 · 2020年3月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员