《你有自由风格吗？基于音频控制的拟人机器人表现性运动》 (Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control) - 专知论文

会员服务 ·

0

机器人 · 重建 · 音频生成 · 稀疏 · 级联 ·

2025 年 12 月 29 日

Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control

翻译：《你有自由风格吗？基于音频控制的拟人机器人表现性运动》

Zhe Li,Cheng Chi,Yangyang Wei,Boan Zhu,Tao Huang,Zhenguo Sun,Yibo Peng,Pengwei Wang,Zhongyuan Wang,Fangzhou Liu,Chang Xu,Shanghang Zhang

Humans intuitively move to sound, but current humanoid robots lack expressive improvisational capabilities, confined to predefined motions or sparse commands. Generating motion from audio and then retargeting it to robots relies on explicit motion reconstruction, leading to cascaded errors, high latency, and disjointed acoustic-actuation mapping. We propose RoboPerform, the first unified audio-to-locomotion framework that can directly generate music-driven dance and speech-driven co-speech gestures from audio. Guided by the core principle of "motion = content + style", the framework treats audio as implicit style signals and eliminates the need for explicit motion reconstruction. RoboPerform integrates a ResMoE teacher policy for adapting to diverse motion patterns and a diffusion-based student policy for audio style injection. This retargeting-free design ensures low latency and high fidelity. Experimental validation shows that RoboPerform achieves promising results in physical plausibility and audio alignment, successfully transforming robots into responsive performers capable of reacting to audio.

翻译：人类能够本能地随乐而动，但当前的拟人机器人缺乏即兴表现能力，局限于预定义动作或稀疏指令。现有方法通常从音频生成动作，再将其重定向至机器人，这依赖于显式的动作重建，导致级联误差、高延迟以及声学-驱动映射的割裂。我们提出了RoboPerform，这是首个统一的音频到运动框架，能够直接从音频生成音乐驱动的舞蹈和语音驱动的伴随手势。该框架以“动作 = 内容 + 风格”为核心原则，将音频视为隐式的风格信号，从而无需显式的动作重建。RoboPerform集成了一个ResMoE教师策略用于适应多样化的运动模式，以及一个基于扩散的学生策略用于注入音频风格。这种无需重定向的设计确保了低延迟和高保真度。实验验证表明，RoboPerform在物理合理性和音频对齐方面取得了良好的效果，成功地将机器人转变为能够响应音频的表演者。

0

相关内容

机器人

机器人（英语：Robot）包括一切模拟人类行为或思想与模拟其他生物的机械（如机器狗，机器猫等）。狭义上对机器人的定义还有很多分类法及争议，有些电脑程序甚至也被称为机器人。在当代工业中，机器人指能自动运行任务的人造机器设备，用以取代或协助人类工作，一般会是机电设备，由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

虚拟人运动控制策略学习方法的研究进展与展望

虚拟人运动控制策略学习方法的研究进展与展望

专知会员服务

19+阅读 · 2024年8月17日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

24+阅读 · 2023年11月26日

【伯克利博士论文】将机器人的表征与人类对齐

【伯克利博士论文】将机器人的表征与人类对齐

专知会员服务

46+阅读 · 2023年8月27日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

50+阅读 · 2022年11月14日

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

专知会员服务

30+阅读 · 2022年8月29日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

你跳宅舞的样子很专业：不，这都是AI合成的结果

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars

Arxiv

0+阅读 · 1月20日

FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions

Arxiv

0+阅读 · 1月19日

Generation of Real-time Robotic Emotional Expressions Learning from Human Demonstration in Mixed Reality

Arxiv

0+阅读 · 1月17日

Towards Accessible Robot Control: Comparing Kinesthetic Teaching, SpaceMouse Teleoperation, and a Mixed Reality Interface

Arxiv

0+阅读 · 1月17日

JoyAvatar-Flash: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion

Arxiv

0+阅读 · 1月14日

Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control

Arxiv

0+阅读 · 1月4日

RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion

Arxiv

0+阅读 · 1月4日

UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots

Arxiv

0+阅读 · 2025年12月30日

RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

【斯坦福大学博士论文】学习连续体机器人控制中的主要动力学

专知会员服务

16+阅读 · 2025年4月19日

虚拟人运动控制策略学习方法的研究进展与展望

虚拟人运动控制策略学习方法的研究进展与展望

专知会员服务

19+阅读 · 2024年8月17日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

【ETHZ博士论文】通过自适应和基于学习的模型预测控制的机器人移动操纵

专知会员服务

24+阅读 · 2023年11月26日

【伯克利博士论文】将机器人的表征与人类对齐

【伯克利博士论文】将机器人的表征与人类对齐

专知会员服务

46+阅读 · 2023年8月27日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

50+阅读 · 2022年11月14日

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

不可错过！康奈尔大学最新《机器人学习与决策》课程，讲述最新技术，附视频与Slides

专知会员服务

30+阅读 · 2022年8月29日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

虚拟数字人发展白皮书，37页pdf

虚拟数字人发展白皮书，37页pdf

专知

10+阅读 · 2022年2月16日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

你跳宅舞的样子很专业：不，这都是AI合成的结果

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

相关论文

HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

Arxiv

0+阅读 · 2月2日

ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars

Arxiv

0+阅读 · 1月20日

FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions

Arxiv

0+阅读 · 1月19日

Generation of Real-time Robotic Emotional Expressions Learning from Human Demonstration in Mixed Reality

Arxiv

0+阅读 · 1月17日

Towards Accessible Robot Control: Comparing Kinesthetic Teaching, SpaceMouse Teleoperation, and a Mixed Reality Interface

Arxiv

0+阅读 · 1月17日

JoyAvatar-Flash: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion

Arxiv

0+阅读 · 1月14日

Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control

Arxiv

0+阅读 · 1月4日

RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion

Arxiv

0+阅读 · 1月4日

UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots

Arxiv

0+阅读 · 2025年12月30日

RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion

Arxiv

0+阅读 · 2025年12月30日

相关基金

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向复杂环境的四足机器人自适应和快速稳定运动控制方法研究及应用

国家自然科学基金

0+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员