Situated embodied conversation requires robots to interleave real-time dialogue with active perception: deciding what to look at, when to look, and what to say under tight latency constraints. We present a simple, minimal system recipe that pairs a real-time multimodal language model with a small set of tool interfaces for attention and active perception. We study six home-style scenarios that require frequent attention shifts and increasing perceptual scope. Across four system variants, we evaluate turn-level tool-decision correctness against human annotations and collect subjective ratings of interaction quality. Results indicate that real-time multimodal large language models and tool use for active perception is a promising direction for practical situated embodied conversation.


翻译:情境化具身对话要求机器人在严格延迟约束下,将实时对话与主动感知进行交织:决定何时观察、观察何处以及如何回应。本文提出一种简洁、最小化的系统构建方案,将实时多模态语言模型与一组用于注意力分配和主动感知的轻量工具接口相结合。我们研究了六个需要频繁注意力转移且感知范围逐步扩大的家庭场景。通过四种系统变体的对比实验,我们基于人工标注评估了任务轮次中工具决策的正确性,并收集了交互质量的主观评分。结果表明,采用实时多模态大语言模型结合主动感知工具调用,是实现实用化情境化具身对话的可行方向。

0
下载
关闭预览

相关内容

面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
【CMU博士论文】个性化情境感知多模态机器人反馈
专知会员服务
19+阅读 · 2025年3月4日
多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2025年2月7日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
【CMU博士论文】个性化情境感知多模态机器人反馈
专知会员服务
19+阅读 · 2025年3月4日
多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2025年2月7日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员