Effective collaboration between embodied agents requires more than acting in a shared environment; it demands communication grounded in each agent's evolving understanding of the world. When agents can only partially observe their surroundings, coordination without communication is provably hard, but communication can, in principle, bridge this gap by allowing agents to share observations and align their world models. In this work, we examine whether LLM-based embodied agents actually realize the ability to communicate. We extend PARTNR, a benchmark for collaborative household robotics, with a natural-language dialogue channel that enables two agents with partial observability to communicate during task execution. To evaluate whether dialogue leads to genuine world-model alignment rather than superficial coordination, we propose a framework for measuring world-model alignment defined over per-agent world graphs: observation convergence (do private world models align over time?), information novelty (do messages convey what the partner lacks?), and belief-sensitive messaging (do agents model what their partner knows?). Our experiments across three LLMs reveal that dialogue reduces action conflicts 40 to 83 percentage points but degrades task success relative to silent coordination. Using our metrics, we characterize the gap between superficial coordination and genuine world-model alignment, and identify where current models fall on this spectrum.


翻译:摘要:具身智能体之间的有效协作不仅需要在共享环境中行动,还要求沟通植根于每个智能体对世界不断演化的理解。当智能体只能部分观察其周围环境时,无沟通的协调在理论上异常困难,但原则上,沟通可以通过允许智能体共享观察结果并对其世界模型进行对齐来弥补这一差距。在这项工作中,我们检验了基于大语言模型的具身智能体是否真正实现了沟通能力。我们对PARTNR(一个面向协作家庭机器人的基准测试)进行了扩展,引入了一个自然语言对话通道,使得部分可观测环境中的两个智能体能够在任务执行过程中进行沟通。为了评估对话是否导致了真正的世界模型对齐而非表面协调,我们提出了一套衡量世界模型对齐程度的框架,该框架基于每个智能体的世界图进行定义,包括:观测收敛性(私有世界模型是否随时间对齐?)、信息新颖性(消息是否传达了伙伴缺乏的信息?)以及对信念敏感的消息传递(智能体是否对伙伴已知信息进行建模?)。我们在三种大语言模型上的实验表明,与无声协调相比,对话将动作冲突减少了40至83个百分点,但降低了任务成功率。利用我们的指标,我们刻画了表面协调与真正世界模型对齐之间的差距,并确定了当前模型在此频谱上的位置。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
具身智能体:世界建模
专知会员服务
42+阅读 · 2025年7月8日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
《机器智能体的混合认知模型》最新128页
专知会员服务
58+阅读 · 2024年12月20日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
77+阅读 · 2024年7月26日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
具身智能体:世界建模
专知会员服务
42+阅读 · 2025年7月8日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
《机器智能体的混合认知模型》最新128页
专知会员服务
58+阅读 · 2024年12月20日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
77+阅读 · 2024年7月26日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员