In context-specific applications such as robotics, telecommunications, and healthcare, artificial intelligence systems often face the challenge of limited training data. This scarcity introduces epistemic uncertainty, i.e., reducible uncertainty stemming from incomplete knowledge of the underlying data distribution, which fundamentally limits predictive performance. This review paper examines formal methodologies that address data-limited regimes through two complementary approaches: quantifying epistemic uncertainty and mitigating data scarcity via synthetic data augmentation. We begin by reviewing generalized Bayesian learning frameworks that characterize epistemic uncertainty through generalized posteriors in the model parameter space, as well as ``post-Bayes'' learning frameworks. We continue by presenting information-theoretic generalization bounds that formalize the relationship between training data quantity and predictive uncertainty, providing a theoretical justification for generalized Bayesian learning. Moving beyond methods with asymptotic statistical validity, we survey uncertainty quantification methods that provide finite-sample statistical guarantees, including conformal prediction and conformal risk control. Finally, we examine recent advances in data efficiency by combining limited labeled data with abundant model predictions or synthetic data. Throughout, we take an information-theoretic perspective, highlighting the role of information measures in quantifying the impact of data scarcity.


翻译:在机器人技术、电信和医疗保健等特定应用场景中,人工智能系统常面临训练数据有限的挑战。这种数据稀缺性引入了认知不确定性,即源于对底层数据分布认识不足的可约减不确定性,从根本上限制了预测性能。本文综述了通过两种互补途径应对数据受限机制的形式化方法:量化认知不确定性以及通过合成数据增强缓解数据稀缺问题。我们首先回顾了广义贝叶斯学习框架,该框架通过模型参数空间中的广义后验分布来刻画认知不确定性,同时涵盖“后贝叶斯”学习框架。接着,我们介绍了信息论泛化界,其形式化地建立了训练数据量与预测不确定性之间的数学关系,为广义贝叶斯学习提供了理论依据。在超越具有渐近统计有效性的方法后,我们综述了提供有限样本统计保证的不确定性量化方法,包括共形预测与共形风险控制。最后,我们探讨了通过结合有限标注数据与丰富模型预测或合成数据来提升数据效率的最新进展。全文贯穿信息论视角,着重阐释信息度量在量化数据稀缺性影响中的核心作用。

0
下载
关闭预览

相关内容

人工智能系统可信性度量评估研究综述
专知会员服务
96+阅读 · 2022年1月30日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2024年3月11日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
6+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
9+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
人工智能系统可信性度量评估研究综述
专知会员服务
96+阅读 · 2022年1月30日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员