Active data acquisition is central to many learning and optimization tasks in deep neural networks, yet remains challenging because most approaches rely on predictive uncertainty estimates that are difficult to obtain reliably. To this end, we propose Goal-Oriented Influence- Maximizing Data Acquisition (GOIMDA), an active acquisition algorithm that avoids explicit posterior inference while remaining uncertainty-aware through inverse curvature. GOIMDA selects inputs by maximizing their expected influence on a user-specified goal functional, such as test loss, predictive entropy, or the value of an optimizer-recommended design. Leveraging first-order influence functions, we derive a tractable acquisition rule that combines the goal gradient, training-loss curvature, and candidate sensitivity to model parameters. We show theoretically that, for generalized linear models, GOIMDA approximates predictive-entropy minimization up to a correction term accounting for goal alignment and prediction bias, thereby, yielding uncertainty-aware behavior without maintaining a Bayesian posterior. Empirically, across learning tasks (including image and text classification) and optimization tasks (including noisy global optimization benchmarks and neural-network hyperparameter tuning), GOIMDA consistently reaches target performance with substantially fewer labeled samples or function evaluations than uncertainty-based active learning and Gaussian-process Bayesian optimization baselines.


翻译:主动数据采集是深度神经网络中许多学习与优化任务的核心,但由于大多数方法依赖于难以可靠获取的预测不确定性估计,该问题仍然具有挑战性。为此,我们提出了面向目标的影响力最大化数据采集(GOIMDA),这是一种主动采集算法,它避免显式的后验推断,同时通过逆曲率保持对不确定性的感知。GOIMDA通过最大化输入对用户指定目标泛函(如测试损失、预测熵或优化器推荐设计的值)的期望影响力来选择输入。利用一阶影响函数,我们推导出一个易于处理的采集规则,该规则结合了目标梯度、训练损失曲率以及候选输入对模型参数的敏感性。我们从理论上证明,对于广义线性模型,GOIMDA近似于预测熵最小化,其误差项由目标对齐和预测偏差修正,从而在不维护贝叶斯后验的情况下产生具有不确定性感知的行为。在经验评估中,跨越学习任务(包括图像和文本分类)和优化任务(包括噪声全局优化基准测试和神经网络超参数调优),GOIMDA持续以比基于不确定性的主动学习和高斯过程贝叶斯优化基线方法少得多的标记样本或函数评估次数达到目标性能。

0
下载
关闭预览

相关内容

【ICML2023】面向影响力最大化的深度图表示学习与优化
专知会员服务
29+阅读 · 2023年5月6日
专知会员服务
21+阅读 · 2021年8月1日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICML2023】面向影响力最大化的深度图表示学习与优化
专知会员服务
29+阅读 · 2023年5月6日
专知会员服务
21+阅读 · 2021年8月1日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员