Robotic manipulation is typically evaluated by task success, but successful completion does not guarantee safe execution. Many safety failures are temporal: a robot may touch a clean surface after contamination or release an object before it is fully inside an enclosure. We introduce SafeManip, a property-driven benchmark to explicitly evaluate temporal safety properties in robotic manipulation, moving beyond prior evaluations that largely focus on task completion or per-state constraint violations. SafeManip defines reusable safety templates over finite executions using Linear Temporal Logic over finite traces (LTLf). It maps observed rollouts to symbolic predicate traces and evaluates them with LTLf-based monitors. Its property suite covers eight manipulation safety categories: collision and contact safety, grasp stability, release stability, cross-contamination, action onset, mechanism recovery, object containment, and enclosure access. Templates can be instantiated with task-specific objects, fixtures, regions, or skills, allowing the same safety specifications to generalize across tasks and environments. We evaluate SafeManip on six vision-language-action policies, including $π_0$, $π_{0.5}$, GR00T, and their training variants, across 50 RoboCasa365 household tasks. Results show that even strong models often behave unsafely. Task-success gains do not reliably translate into safer execution: many successful rollouts remain unsafe, while longer-horizon or more complex tasks expose more violations. SafeManip provides a reusable evaluation layer for diagnosing temporal safety failures and measuring safe success beyond task completion.


翻译:机器人操作通常通过任务成功率来评估,但成功完成并不能保证执行过程的安全性。许多安全故障具有时态性:机器人在接触污染表面后可能触碰洁净区域,或在物体完全进入封闭空间前提前释放。我们提出SafeManip,一种属性驱动的基准测试框架,旨在显式评估机器人操作中的时态安全性,超越了以往主要关注任务完成或单步约束违反的评估方法。SafeManip基于有限迹线性时态逻辑(LTLf),在有限执行轨迹上定义可重用的安全模板。它将观测到的轨迹映射为符号谓词迹,并通过基于LTLf的监控器进行评估。其属性集涵盖八类操作安全范畴:碰撞与接触安全、抓取稳定性、释放稳定性、交叉污染、动作起始、机制恢复、物体包容及封闭空间访问。这些模板可针对特定任务的对象、夹具、区域或技能进行实例化,使得相同安全规范能泛化至不同任务与环境。我们在50个RoboCasa365家庭任务上评估了SafeManip在六种视觉-语言-动作策略(包括$π_0$、$π_{0.5}$、GR00T及其训练变体)中的表现。结果表明,即使是强大的模型也常表现出不安全行为。任务成功率的提升并不必然转化为更安全的执行:大量成功轨迹仍存在安全隐患,而长时域或更复杂任务会暴露更多违规行为。SafeManip为诊断时态安全故障及衡量超越任务完成的安全成功提供了可复用的评估层。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《结合机器人行为以实现安全、智能的执行》
专知会员服务
17+阅读 · 2023年7月4日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
机器人操作的“圣杯问题” -- Bin Picking
机器人学家
16+阅读 · 2018年8月2日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《结合机器人行为以实现安全、智能的执行》
专知会员服务
17+阅读 · 2023年7月4日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员