Reasoning about failures is crucial for building reliable and trustworthy robotic systems. Prior approaches either treat failure reasoning as a closed-set classification problem or assume access to ample human annotations. Failures in the real world are typically subtle, combinatorial, and difficult to enumerate, whereas rich reasoning labels are expensive to acquire. We address this problem by introducing ARMOR: Adaptive Round-based Multi-task mOdel for Robotic failure detection and reasoning. We formulate detection and reasoning as a multi-task self-refinement process, where the model iteratively predicts detection outcomes and natural language reasoning conditioned on past outputs. During training, ARMOR learns from heterogeneous supervision - large-scale sparse binary labels and small-scale rich reasoning annotations - optimized via a combination of offline and online imitation learning. At inference time, ARMOR generates multiple refinement trajectories and selects the most confident prediction via a self-certainty metric. Experiments across diverse environments show that ARMOR achieves state-of-the-art performance by improving over the previous approaches by up to 30% on failure detection rate and up to 100% in reasoning measured through LLM fuzzy match score, demonstrating robustness to heterogeneous supervision and open-ended reasoning beyond predefined failure modes. We provide dditional visualizations on our website: https://sites.google.com/utexas.edu/armor


翻译:对故障进行推理对于构建可靠且可信赖的机器人系统至关重要。现有方法要么将故障推理视为闭集分类问题,要么假设能够获取充足的人工标注。现实世界中的故障通常具有细微性、组合性且难以穷举,而丰富的推理标注获取成本高昂。为解决此问题,我们提出了ARMOR:一种用于机器人故障检测与推理的自适应轮次式多任务模型。我们将检测与推理构建为一个多任务自优化过程,模型以前一轮输出为条件,迭代地预测检测结果和自然语言推理。在训练期间,ARMOR从异构监督信号中学习——大规模稀疏二元标签与小规模丰富推理标注——通过离线与在线模仿学习的组合进行优化。在推理阶段,ARMOR生成多条优化轨迹,并通过自置信度度量选择最可信的预测。在多样化环境中的实验表明,ARMOR实现了最先进的性能:故障检测率较先前方法提升高达30%,通过LLM模糊匹配分数衡量的推理能力提升高达100%,这证明了其对异构监督的鲁棒性以及对超出预定义故障模式的开放式推理能力。我们在网站上提供了额外的可视化结果:https://sites.google.com/utexas.edu/armor

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
【PHM算法】PHM算法 | 故障诊断建模方法
产业智能官
68+阅读 · 2020年3月16日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员