Large language models are increasingly used as planners for robotic systems, yet how safely they plan remains an open question. To evaluate safe planning systematically, we introduce DESPITE, a benchmark of 12,279 tasks spanning physical and normative dangers with fully deterministic validation. Across 23 models, even near-perfect planning ability does not ensure safety: the best-planning model fails to produce a valid plan on only 0.4% of tasks but produces dangerous plans on 28.3%. Among 18 open-source models from 3B to 671B parameters, planning ability improves substantially with scale (0.4-99.3%) while safety awareness remains relatively flat (38-57%). We identify a multiplicative relationship between these two capacities, showing that larger models complete more tasks safely primarily through improved planning, not through better danger avoidance. Three proprietary reasoning models reach notably higher safety awareness (71-81%), while non-reasoning proprietary models and open-source reasoning models remain below 57%. As planning ability approaches saturation for frontier models, improving safety awareness becomes a central challenge for deploying language-model planners in robotic systems.


翻译:大型语言模型越来越多地被用作机器人系统的规划器,然而其规划的安全性仍是一个未解问题。为系统性地评估安全规划,我们提出DESPITE基准,包含12,279个任务,涵盖物理与规范性危险,并采用完全确定性验证。在23个模型上,即使近乎完美的规划能力也无法确保安全:最佳规划模型仅在0.4%的任务上未能生成有效规划,但在28.3%的任务上生成了危险规划。在18个参数规模从3B到671B的开源模型中,规划能力随规模显著提升(0.4-99.3%),而安全意识却相对持平(38-57%)。我们识别出这两种能力之间的乘法关系,表明更大模型主要通过规划改进而非更好的危险规避来完成更多安全任务。三个专有推理模型达到了显著更高的安全意识(71-81%),而非推理专有模型与开源推理模型仍低于57%。当规划能力对前沿模型接近饱和时,提升安全意识成为在机器人系统中部署语言模型规划器的核心挑战。

0
下载
关闭预览

相关内容

《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
18+阅读 · 6月6日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
22+阅读 · 2025年4月27日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
50+阅读 · 2024年12月24日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大语言模型安全开发者手册:构建安全的 AI 应用程序
专知会员服务
35+阅读 · 2024年9月29日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大语言模型视角下的智能规划方法综述
专知会员服务
138+阅读 · 2024年4月20日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
18+阅读 · 6月6日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
22+阅读 · 2025年4月27日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
50+阅读 · 2024年12月24日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大语言模型安全开发者手册:构建安全的 AI 应用程序
专知会员服务
35+阅读 · 2024年9月29日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大语言模型视角下的智能规划方法综述
专知会员服务
138+阅读 · 2024年4月20日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员