Quantifying the impacts of air pollution on health and climate relies on key atmospheric particle properties such as toxicity and hygroscopicity. However, these properties typically require complex observational techniques or expensive particle-resolved numerical simulations, limiting the availability of labeled data. We therefore estimate these hard-to-measure particle properties from routinely available observations (e.g., air pollutant concentrations and meteorological conditions). Because routine observations only indirectly reflect particle composition and structure, the mapping from routine observations to particle properties is noisy and input-dependent, yielding a heteroscedastic regression setting. With a limited and costly labeling budget, the central challenge is to select which samples to measure or simulate. While active learning is a natural approach, most acquisition strategies rely on predictive uncertainty. Under heteroscedastic noise, this signal conflates reducible epistemic uncertainty with irreducible aleatoric uncertainty, causing limited budgets to be wasted in noise-dominated regions. To address this challenge, we propose a confidence-aware active learning framework (CAAL) for efficient and robust sample selection in heteroscedastic settings. CAAL consists of two components: a decoupled uncertainty-aware training objective that separately optimises the predictive mean and noise level to stabilise uncertainty estimation, and a confidence-aware acquisition function that dynamically weights epistemic uncertainty using predicted aleatoric uncertainty as a reliability signal. Experiments on particle-resolved numerical simulations and real atmospheric observations show that CAAL consistently outperforms standard AL baselines. The proposed framework provides a practical and general solution for the efficient expansion of high-cost atmospheric particle property databases.


翻译:量化空气污染对健康与气候的影响,依赖于毒性及吸湿性等关键大气颗粒物性质。然而,这些性质通常需要复杂的观测技术或昂贵的颗粒物解析数值模拟,导致标记数据稀缺。为此,我们尝试从常规可得的观测数据(如空气污染物浓度与气象条件)中估算这些难以直接测量的颗粒物性质。由于常规观测仅间接反映颗粒物的成分与结构,从常规观测到颗粒物性质的映射存在噪声且具有输入依赖性,从而构成异方差回归场景。在标记预算有限且成本高昂的条件下,核心挑战在于选择哪些样本进行测量或模拟。虽然主动学习是一种自然解决方案,但多数样本获取策略依赖于预测不确定性。在异方差噪声下,该信号将可减少的认知不确定性与不可减少的偶然不确定性混为一谈,导致有限预算被浪费在噪声主导区域。为应对这一挑战,我们提出一种置信度感知主动学习框架(CAAL),用于在异方差场景下实现高效稳健的样本选择。CAAL包含两个核心组件:一个解耦的感知不确定性训练目标,通过分别优化预测均值与噪声水平以稳定不确定性估计;以及一个置信度感知的获取函数,其利用预测的偶然不确定性作为可靠性信号,动态加权认知不确定性。在颗粒物解析数值模拟和真实大气观测数据上的实验表明,CAAL持续优于标准主动学习基线方法。该框架为高效扩展高成本大气颗粒物性质数据库提供了一个实用且通用的解决方案。

0
下载
关闭预览

相关内容

稀疏点云感知的表示学习
专知会员服务
9+阅读 · 2月9日
深度学习与基础模型在天气预测中的应用:综述
专知会员服务
24+阅读 · 2025年1月15日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
0+阅读 · 38分钟前
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
6+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
5+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
5+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
稀疏点云感知的表示学习
专知会员服务
9+阅读 · 2月9日
深度学习与基础模型在天气预测中的应用:综述
专知会员服务
24+阅读 · 2025年1月15日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员