We present a novel, regulator-driven approach for the temporal verification of black-box autonomous robot policies, inspired by real-world certification processes where regulators often evaluate observable behavior without access to model internals. Central to our method is a regulator-in-the-loop approach that evaluates execution traces from black-box policies against temporal safety requirements. These requirements, expressed as prioritized Signal Temporal Logic (STL) specifications, characterize behavior changes over time and encode domain knowledge into the verification process. We use Total Robustness Value (TRV) and Largest Robustness Value (LRV) to quantify average performance and worst-case adherence, and introduce Average Violation Robustness Value (AVRV) to measure average specification violation. Together, these metrics guide targeted retraining and iterative model improvement. Our approach accommodates diverse temporal safety requirements (e.g., lane-keeping, delayed acceleration, and turn smoothness), capturing persistence, sequencing, and response across two distinct domains (virtual racing game and mobile robot navigation). Across six STL specifications in both scenarios, regulator-guided retraining increased satisfaction rates by an average of 43.8%, with consistent improvement in average performance (TRV) and reduced violation severity (LRV) in half of the specifications. Finally, real-world validation on a TurtleBot3 robot demonstrates a 27% improvement in smooth-navigation satisfaction, yielding smoother paths and stronger compliance with STL-defined temporal safety requirements.


翻译:本文提出一种新颖的、受监管机制驱动的黑盒自主机器人策略时序验证方法,其灵感来源于现实世界认证流程——监管机构通常仅通过可观测行为进行评估,而无需访问模型内部结构。我们方法的核心在于采用"监管闭环"机制,通过对比黑盒策略的执行轨迹与时序安全要求进行评估。这些以优先级化信号时序逻辑(STL)规范表述的要求,能够刻画行为随时间的变化特征,并将领域知识编码至验证过程中。我们采用总体鲁棒值(TRV)与最大鲁棒值(LRV)分别量化平均性能与最差情况下的规范符合度,同时引入平均违反鲁棒值(AVRV)以度量平均规范违反程度。这些指标共同指导针对性重训练与迭代式模型改进。我们的方法兼容多种时序安全要求(如车道保持、延迟加速和转向平顺性),在两个不同领域(虚拟竞速游戏与移动机器人导航)中捕捉持续性、序列性和响应性特征。在两种场景共六项STL规范的测试中,监管引导的重训练使规范满足率平均提升43.8%,其中半数规范的平均性能(TRV)持续改善且违反严重程度(LRV)降低。最后,在TurtleBot3机器人上的真实场景验证表明,平顺导航满足率提升27%,生成路径更平滑且对STL定义的时序安全要求具有更强符合性。

0
下载
关闭预览

相关内容

《人工智能赋能空战智能体的可解释性》
专知会员服务
69+阅读 · 2024年6月5日
《结合机器人行为以实现安全、智能的执行》
专知会员服务
16+阅读 · 2023年7月4日
专知会员服务
23+阅读 · 2021年8月22日
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
130+阅读 · 2020年11月19日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员