Inaccurately labeled training data, or "label noise", poses a significant threat to the integrity of supervised machine learning models. This corruption directly degrades performance by teaching the model erroneous mappings between features and labels, which leads to poor generalization and reduced accuracy on properly labeled validation and test data. Current seismological applications mainly rely on large-scale training sets or data augmentation to reduce the label-noise impact, which can be labor-intensive and costly. Here, we introduce a Label Noise-Contrastive Robust Learning (LaNCoR) approach that can effectively handle noisy labels in seismic signal processing tasks, without requiring large-scale training datasets. In this approach, the input waveform feature and label representation distributions are aligned in the feature space to correct mislabeling and reduce its impact on the training process. We present LaNCoR's performance on the task of P-phase arrival-time picking of real microseismic data using two baseline models and training approaches. Our results indicate that LaNCoR can improve performance by up to 28.8% across performance metrics. This approach holds great promise for model training in seismology and geosciences.


翻译:不准确标注的训练数据(即“标签噪声”)对监督式机器学习模型的完整性构成严重威胁。这种噪声通过教导模型在特征与标签之间建立错误映射关系,直接导致模型性能下降,造成泛化能力减弱以及对正确标注的验证集和测试集的准确性降低。当前地震学应用主要依赖大规模训练集或数据增强来降低标签噪声的影响,但这往往需要大量人力和成本。本文提出一种标签噪声对比鲁棒学习方法(LaNCoR),能够在无需大规模训练数据集的情况下有效处理地震信号处理任务中的噪声标签。该方法通过将输入波形特征与标签表示分布在特征空间中对齐,从而纠正错误标签并减少其对训练过程的影响。我们展示了LaNCoR在真实微地震数据P波到时拾取任务中,基于两种基线模型和训练方法的表现。结果表明,LaNCoR在各项性能指标上最高可实现28.8%的提升。该方法为地震学及地球科学领域的模型训练提供了广阔前景。

0
下载
关闭预览

相关内容

【牛津大学博士论文】从多模态数据中学习表示,258页pdf
专知会员服务
31+阅读 · 2020年12月7日
专知会员服务
101+阅读 · 2020年7月20日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员