Optimal control of the future is the next frontier for AI. Current approaches to this problem are typically rooted in either reinforcement learning or online learning. While powerful, these frameworks for learning are mathematically distinct from Probably Approximately Correct (PAC) learning, which has been the workhorse for the recent technological achievements in AI. We therefore build on the prior work of prospective learning, an extension of PAC learning (without control) in non-stationary environments (De Silva et al., 2023; Silva et al., 2024; Bai et al., 2026). Here, we further extend the PAC learning framework to address learning and control in non-stationary environments. Using this framework, called ''Prospective Control'', we prove that under certain fairly general assumptions, empirical risk minimization (ERM) asymptotically achieves the Bayes optimal policy. We then consider a specific instance of prospective control, foraging, which is a canonical task for any mobile agent, be it natural or artificial. We illustrate that existing reinforcement learning algorithms fail to learn in these non-stationary environments, and even with modifications, they are orders of magnitude less efficient than our prospective foraging agents. Code is available at: https://github.com/neurodata/ProspectiveLearningwithControl.


翻译:未来的最优控制是人工智能的下一个前沿领域。当前解决该问题的方法通常基于强化学习或在线学习。尽管这些学习框架功能强大,但它们在数学上与“可能近似正确”(PAC)学习截然不同,而PAC学习正是推动近期人工智能技术成就的核心工具。因此,我们基于先前的前瞻性学习研究(De Silva等人,2023;Silva等人,2024;Bai等人,2026)展开工作,该研究是PAC学习(无控制)在非平稳环境中的扩展。在此,我们进一步扩展PAC学习框架,以解决非平稳环境中的学习与控制问题。利用这一名为“前瞻控制”的框架,我们证明在若干相当一般的假设下,经验风险最小化(ERM)能够渐近地实现贝叶斯最优策略。随后,我们考察了前瞻控制的一个具体实例——觅食,这是任何移动智能体(无论是自然还是人工的)的典型任务。我们阐明,现有的强化学习算法在这些非平稳环境中无法有效学习,即使经过修改,其效率也远低于我们的前瞻性觅食智能体(相差数个数量级)。代码可在以下网址获取:https://github.com/neurodata/ProspectiveLearningwithControl。

0
下载
关闭预览

相关内容

OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 2025年3月1日
【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
25+阅读 · 2024年7月11日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
【NeurIPS2022】持续强化学习中的解纠缠迁移
专知会员服务
27+阅读 · 2022年10月3日
【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
181+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
相关资讯
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员