从指令到事件：声音触发的移动操作 (From Instruction to Event: Sound-Triggered Mobile Manipulation) - 专知论文

会员服务 ·

0

操作 · 事件 · 交互 · 基线 · 系统 ·

From Instruction to Event: Sound-Triggered Mobile Manipulation

翻译：从指令到事件：声音触发的移动操作

Hao Ju,Shaofei Huang,Hongyu Li,Zihan Ding,Si Liu,Meng Wang,Zhedong Zheng

Current mobile manipulation research predominantly follows an instruction-driven paradigm, where agents rely on predefined textual commands to execute tasks. However, this setting confines agents to a passive role, limiting their autonomy and ability to react to dynamic environmental events. To address these limitations, we introduce sound-triggered mobile manipulation, where agents must actively perceive and interact with sound-emitting objects without explicit action instructions. To support these tasks, we develop Habitat-Echo, a data platform that integrates acoustic rendering with physical interaction. We further propose a baseline comprising a high-level task planner and low-level policy models to complete these tasks. Extensive experiments show that the proposed baseline empowers agents to actively detect and respond to auditory events, eliminating the need for case-by-case instructions. Notably, in the challenging dual-source scenario, the agent successfully isolates the primary source from overlapping acoustic interference to execute the first interaction, and subsequently proceeds to manipulate the secondary object, verifying the robustness of the baseline.

翻译：当前移动操作研究主要遵循指令驱动范式，其中智能体依赖预定义的文本命令来执行任务。然而，这种设定将智能体限制在被动角色中，限制了其自主性和对环境动态事件的反应能力。为应对这些局限，我们引入了声音触发的移动操作，其中智能体必须在没有明确动作指令的情况下，主动感知并与发声物体交互。为支持这些任务，我们开发了Habitat-Echo，一个将声学渲染与物理交互相结合的数据平台。我们进一步提出了一个由高层任务规划器和低层策略模型组成的基线系统来完成这些任务。大量实验表明，所提出的基线系统使智能体能够主动检测并响应听觉事件，无需逐例指令。值得注意的是，在具有挑战性的双声源场景中，智能体成功从重叠的声学干扰中分离出主要声源以执行首次交互，随后继续操作次要物体，验证了基线系统的鲁棒性。

0

相关内容

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

专知会员服务

24+阅读 · 2025年7月31日

人工智能对指控领域的影响

人工智能对指控领域的影响

专知会员服务

35+阅读 · 2024年11月20日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

24+阅读 · 2023年11月26日

什么是语言智能体？《语言智能体：人工智能的重要演化步骤》，54页ppt，OSU 助理教授Yu Su

什么是语言智能体？《语言智能体：人工智能的重要演化步骤》，54页ppt，OSU 助理教授Yu Su

专知会员服务

55+阅读 · 2023年9月9日

推荐！译文 |《从军事战略到命令：利用人工智能准备和实施军事行动》2023最新报告

推荐！译文 |《从军事战略到命令：利用人工智能准备和实施军事行动》2023最新报告

专知会员服务

154+阅读 · 2023年3月15日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

少数派

15+阅读 · 2020年6月8日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

Arxiv

0+阅读 · 2月5日

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

Arxiv

0+阅读 · 2月4日

Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

From Speech-to-Spatial: Grounding Utterances on A Live Shared View with Augmented Reality

Arxiv

0+阅读 · 2月3日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月18日

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Arxiv

0+阅读 · 1月14日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

专知会员服务

24+阅读 · 2025年7月31日

人工智能对指控领域的影响

人工智能对指控领域的影响

专知会员服务

35+阅读 · 2024年11月20日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

24+阅读 · 2023年11月26日

什么是语言智能体？《语言智能体：人工智能的重要演化步骤》，54页ppt，OSU 助理教授Yu Su

什么是语言智能体？《语言智能体：人工智能的重要演化步骤》，54页ppt，OSU 助理教授Yu Su

专知会员服务

55+阅读 · 2023年9月9日

推荐！译文 |《从军事战略到命令：利用人工智能准备和实施军事行动》2023最新报告

推荐！译文 |《从军事战略到命令：利用人工智能准备和实施军事行动》2023最新报告

专知会员服务

154+阅读 · 2023年3月15日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

一张神奇的贴纸，用 NFC 标签配合快捷指令实现场景自动化

少数派

15+阅读 · 2020年6月8日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

MobileManiBench: Simplifying Model Verification for Mobile Manipulation

Arxiv

0+阅读 · 2月5日

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

Arxiv

0+阅读 · 2月4日

Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

From Speech-to-Spatial: Grounding Utterances on A Live Shared View with Augmented Reality

Arxiv

0+阅读 · 2月3日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月18日

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Arxiv

0+阅读 · 1月14日

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

Arxiv

0+阅读 · 1月14日

相关基金

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员