UNCOM: Zero-shot Context-Aware Command Understanding for Tabletop Scenarios - 专知论文

会员服务 ·

0

系统 · 样本 · 零样本 · 数据集 · 情境 ·

UNCOM: Zero-shot Context-Aware Command Understanding for Tabletop Scenarios

翻译：标题：UNCOM：面向桌面场景的零样本情境感知指令理解框架

Antonio Galiza Cerdeira Gonzalez,Paweł Gajewski,Bipin Indurkhya

This paper presents UNCOM, a novel hybrid framework for interpreting natural human commands in tabletop scenarios. The system integrates multiple sources of information -- speech, gestures, and scene context -- to extract structured, actionable instructions for robots. Addressing the need for general-purpose human-robot interaction in domestic environments, UNCOM is designed for zero-shot operation, without reliance on predefined object models or training data specific to a given task. Using foundational and task-specific deep learning models, it allows out-of-the-box speech recognition, natural language understanding, gesture detection, and object segmentation. The modular architecture enhances transparency and explainability by explicitly parsing commands into object-action-target representations, enabling integration with symbolic robotic frameworks. We demonstrate the system in a TIAGo++ robot and provide an evaluation on a real-world data set of human-robot interaction scenarios; achieving an 82.39\% success rate over our benchmark data set, highlighting the robustness of the system to diversity, noise, and communication ambiguity. The data set, evaluation scenarios, and the code are publicly available to support future research.

翻译：摘要：本文提出UNCOM——一种面向桌面场景的混合框架，用于解析人类自然语言指令。该系统整合语音、手势与场景上下文等多源信息，为机器人提取结构化且可执行的行动指令。针对家用环境中通用人机交互的需求，UNCOM被设计为具备零样本操作能力，无需依赖预定义物体模型或特定任务的训练数据。通过运用基础模型与任务专用深度学习模型，该系统可实现即开即用的语音识别、自然语言理解、手势检测与目标分割。其模块化架构通过将指令显式解析为"对象-操作-目标"三元组表示，增强了系统的透明度与可解释性，并支持与符号化机器人框架的集成。我们在TIAGo++机器人上验证了该系统，并基于真实人机交互场景数据集进行了评估：基准数据集上的成功率达到82.39%，充分证明了系统对多样性、噪声及通信歧义的鲁棒性。为促进后续研究，本文所涉及的数据集、评估场景及代码均已公开。

0

相关内容

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

专知会员服务

18+阅读 · 5月19日

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

15+阅读 · 5月16日

《支持战术零信任架构实施的自动化零样本数据标记生成式人工智能方法》

《支持战术零信任架构实施的自动化零样本数据标记生成式人工智能方法》

专知会员服务

20+阅读 · 2025年11月7日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

专知会员服务

9+阅读 · 2025年4月15日

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

专知会员服务

51+阅读 · 2024年11月30日

基于UNet的医学图像分割综述

基于UNet的医学图像分割综述

专知会员服务

38+阅读 · 2023年8月8日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

基于小样本学习的意图识别冷启动

基于小样本学习的意图识别冷启动

PaperWeekly

11+阅读 · 2019年5月12日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

UoU: A Universal Fingerprint Foundation Model Based on Large-Scale Unsupervised Learning

Arxiv

0+阅读 · 6月16日

Decoupled Object-Centric Video Understanding for Generating Robotic Manipulation Commands

Arxiv

0+阅读 · 6月15日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

Arxiv

0+阅读 · 6月2日

Squidgets: Sketch-based Widget Design for Scene Manipulation

Arxiv

0+阅读 · 5月20日

CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms

Arxiv

0+阅读 · 5月8日

UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval

Arxiv

0+阅读 · 4月22日

Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction

Arxiv

0+阅读 · 4月21日

Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Arxiv

0+阅读 · 3月26日

GraphOmni: A Comprehensive and Extensible Benchmark Framework for Large Language Models on Graph-theoretic Tasks

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

0+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

0+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

《U-Plan：一个用于异构无人机系统协调与实时监管的集成框架》

专知会员服务

18+阅读 · 5月19日

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

15+阅读 · 5月16日

《支持战术零信任架构实施的自动化零样本数据标记生成式人工智能方法》

《支持战术零信任架构实施的自动化零样本数据标记生成式人工智能方法》

专知会员服务

20+阅读 · 2025年11月7日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

专知会员服务

9+阅读 · 2025年4月15日

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

专知会员服务

51+阅读 · 2024年11月30日

基于UNet的医学图像分割综述

基于UNet的医学图像分割综述

专知会员服务

38+阅读 · 2023年8月8日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

基于小样本学习的意图识别冷启动

基于小样本学习的意图识别冷启动

PaperWeekly

11+阅读 · 2019年5月12日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

UoU: A Universal Fingerprint Foundation Model Based on Large-Scale Unsupervised Learning

Arxiv

0+阅读 · 6月16日

Decoupled Object-Centric Video Understanding for Generating Robotic Manipulation Commands

Arxiv

0+阅读 · 6月15日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

Arxiv

0+阅读 · 6月2日

Squidgets: Sketch-based Widget Design for Scene Manipulation

Arxiv

0+阅读 · 5月20日

CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms

Arxiv

0+阅读 · 5月8日

UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval

Arxiv

0+阅读 · 4月22日

Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction

Arxiv

0+阅读 · 4月21日

Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Arxiv

0+阅读 · 3月26日

GraphOmni: A Comprehensive and Extensible Benchmark Framework for Large Language Models on Graph-theoretic Tasks

Arxiv

0+阅读 · 3月25日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员