Reinforcement learning and data-driven autonomous controllers are commonly evaluated using cumulative reward and empirical success frequency under finite simulation trajectories. However, such empirical metrics do not necessarily provide sufficient statistical evidence regarding deployment readiness under uncertainty. This work develops a Bayesian approval framework for learned autonomous landing controllers under finite rollout evidence. A probabilistic landing capability formulation is introduced based on touchdown safety satisfaction under uncertain operating conditions, while Bayesian posterior inference is used to quantify uncertainty regarding the true deployment capability of learned policies. Posterior approval probability and posterior deployment risk are further introduced for deployment-oriented evaluation, together with a sequential validation framework supporting approve/reject/continue decisions during progressive rollout testing. Simulation experiments using PPO and SAC controllers demonstrate that empirical success and reward optimization may produce overconfident deployment interpretation under limited validation evidence, whereas posterior approval inference provides a more uncertainty-calibrated assessment of deployment readiness. The proposed framework provides a practical statistical connection between conventional reinforcement-learning evaluation and deployment-oriented validation under uncertainty and may be generalized to broader classes of learned autonomous systems.


翻译:强化学习与数据驱动的自主控制器通常通过有限仿真轨迹下的累积奖励和经验成功频率进行评估。然而,此类经验度量在不确定性条件下未必能为部署准备度提供充分的统计证据。本文提出了一种基于有限推出证据的贝叶斯批准框架,用于学习型自主着陆控制器的部署决策。首先,基于不确定运行条件下触地安全性满足情况,引入了一种概率化着陆能力表述形式;同时,利用贝叶斯后验推理量化学习策略真实部署能力的不确定性。进一步引入后验批准概率和后验部署风险用于面向部署的评估,并提出一种序贯验证框架,支持渐进式推出测试中的批准/拒绝/继续决策。采用PPO和SAC控制器的仿真实验表明,在有限验证证据条件下,经验成功率和奖励优化可能产生过度自信的部署解读,而后验批准推理能提供更具不确定性校准能力的部署准备度评估。所提框架建立了传统强化学习评估与不确定性条件下面向部署的验证之间实用的统计联系,并可推广至更广泛的学习型自主系统类别。

0
下载
关闭预览

相关内容

无人机精确着陆控制技术
专知会员服务
25+阅读 · 2024年10月22日
【ICLR2022】Transformers亦能贝叶斯推断
专知会员服务
25+阅读 · 2021年12月23日
专知会员服务
35+阅读 · 2021年9月18日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
10+阅读 · 2022年1月16日
【GitHub】BERT模型从训练到部署全流程
专知
34+阅读 · 2019年6月28日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月12日
Arxiv
0+阅读 · 3月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员