Embodied agents, such as robots, will need to interact in situated environments where successful communication often depends on reasoning over social norms: shared expectations that constrain what actions are appropriate in context. A key capability in such settings is norm-based reference resolution (NBRR), where interpreting referential expressions requires inferring implicit normative expectations grounded in physical and social context. Yet it remains unclear whether Large Language Models (LLMs) can support this kind of reasoning. In this work, we introduce SNIC (Situated Norms in Context), a human-validated diagnostic testbed designed to probe how well state-of-the-art LLMs can extract and utilize normative principles relevant to NBRR. SNIC emphasizes physically grounded norms that arise in everyday tasks such as cleaning, tidying, and serving. Across a range of controlled evaluations, we find that even the strongest LLMs struggle to consistently identify and apply social norms, particularly when norms are implicit, underspecified, or in conflict. These findings reveal a blind spot in current LLMs and highlight a key challenge for deploying language-based systems in socially situated, embodied settings.


翻译:具身智能体(如机器人)需要在情境化环境中进行交互,其中成功的沟通往往依赖于对社会规范的推理——这些共享的预期约束了特定情境下哪些行为是恰当的。在此类场景中,一项关键能力是基于规范的指代消解:理解指代表达式需要推断植根于物理和社会情境的隐性规范预期。然而,目前尚不清楚大语言模型是否支持此类推理。本研究提出了SNIC(情境中的规范),这是一个经过人工验证的诊断测试平台,旨在探究前沿大语言模型提取和利用与NBRR相关的规范原则的能力。SNIC重点关注清洁、整理、服务等日常任务中出现的物理情境化规范。通过一系列受控评估,我们发现即使最强大的大语言模型也难以持续识别和应用社会规范,尤其是当规范具有隐含性、未充分明确或相互冲突时。这些发现揭示了当前大语言模型的盲点,并凸显了在社交情境化的具身环境中部署基于语言的系统所面临的关键挑战。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
【牛津大学博士论文】深度具身智能体的空间推理与规划
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
【牛津大学博士论文】深度具身智能体的空间推理与规划
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员