Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture - 专知论文

会员服务 ·

0

机器人 · 教育机器人 · 一致 · 分析 · 扩散模型 ·

Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture

翻译：基于推理引导的视觉-语言-运动扩散架构的人形教育机器人共情动作生成

Fuze Sun,Lingyu Li,Lekan Dai,Xinyu Fan

This article suggests a reasoning-guided vision-language-motion diffusion framework (RG-VLMD) for generating instruction-aware co-speech gestures for humanoid robots in educational scenarios. The system integrates multi-modal affective estimation, pedagogical reasoning, and teaching-act-conditioned motion synthesis to enable adaptive and semantically consistent robot behavior. A gated mixture-of-experts model predicts Valence/Arousal from input text, visual, and acoustic features, which then mapped to discrete teaching-act categories through an affect-driven policy.These signals condition a diffusion-based motion generator using clip-level intent and frame-level instructional schedules via additive latent restriction with auxiliary action-group supervision. Compared to a baseline diffusion model, our proposed method produces more structured and distinctive motion patterns, as verified by motion statics and pairwise distance analysis. Generated motion sequences remain physically plausible and can be retargeted to a NAO robot for real-time execution. The results reveal that reasoning-guided instructional conditioning improves gesture controllability and pedagogical expressiveness in educational human-robot interaction.

翻译：本文提出了一种推理引导的视觉-语言-运动扩散框架（RG-VLMD），用于在教育场景中为人形机器人生成与指令一致的伴语手势。该系统整合了多模态情感估计、教学推理与教学行为条件化的运动合成，使机器人能够实现自适应且语义一致的行为。通过门控混合专家模型，从输入文本、视觉和声学特征中预测效价/唤醒度，进而通过情感驱动的策略映射为离散的教学行为类别。这些信号通过片段级意图和帧级教学计划，采用附加潜在约束与辅助动作组监督的方式，对基于扩散模型的运动生成器进行条件化。与基线扩散模型相比，我们提出的方法能够生成更具结构性和区分度的运动模式，这一结论通过运动统计学分析和成对距离分析得到验证。生成的动作序列在物理上保持合理，并可重定向至NAO机器人进行实时执行。结果表明，推理引导的教学条件化能够提升教育人机交互中手势的可控性与教学表现力。

0

相关内容

机器人

机器人（英语：Robot）包括一切模拟人类行为或思想与模拟其他生物的机械（如机器狗，机器猫等）。狭义上对机器人的定义还有很多分类法及争议，有些电脑程序甚至也被称为机器人。在当代工业中，机器人指能自动运行任务的人造机器设备，用以取代或协助人类工作，一般会是机电设备，由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

专知会员服务

12+阅读 · 2025年4月19日

机器人操作扩散模型综述

机器人操作扩散模型综述

专知会员服务

21+阅读 · 2025年4月14日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

人工智能在教育领域的应用探析

人工智能在教育领域的应用探析

MOOC

14+阅读 · 2019年3月16日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

Arxiv

0+阅读 · 5月1日

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

Assessing VLM-Driven Semantic-Affordance Inference for Non-Humanoid Robot Morphologies

Arxiv

0+阅读 · 4月21日

VADF: Vision-Adaptive Diffusion Policy Framework for Efficient Robotic Manipulation

Arxiv

0+阅读 · 4月17日

Efficient Emotion-Aware Iconic Gesture Prediction for Robot Co-Speech

Arxiv

0+阅读 · 4月13日

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Arxiv

0+阅读 · 4月5日

Joint Prediction of Human Motions and Actions in Human-Robot Collaboration

Arxiv

0+阅读 · 4月3日

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Arxiv

0+阅读 · 3月31日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

教育机器人

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

【CVPR2025】RoboTwin：具备生成式数字孪生的双臂机器人基准平台

专知会员服务

12+阅读 · 2025年4月19日

机器人操作扩散模型综述

机器人操作扩散模型综述

专知会员服务

21+阅读 · 2025年4月14日

多模态融合与视觉-语言模型：面向机器人视觉的综述

多模态融合与视觉-语言模型：面向机器人视觉的综述

专知会员服务

35+阅读 · 2025年4月5日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

人工智能在教育领域的应用探析

人工智能在教育领域的应用探析

MOOC

14+阅读 · 2019年3月16日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

Arxiv

0+阅读 · 5月1日

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

Assessing VLM-Driven Semantic-Affordance Inference for Non-Humanoid Robot Morphologies

Arxiv

0+阅读 · 4月21日

VADF: Vision-Adaptive Diffusion Policy Framework for Efficient Robotic Manipulation

Arxiv

0+阅读 · 4月17日

Efficient Emotion-Aware Iconic Gesture Prediction for Robot Co-Speech

Arxiv

0+阅读 · 4月13日

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

Arxiv

0+阅读 · 4月5日

Joint Prediction of Human Motions and Actions in Human-Robot Collaboration

Arxiv

0+阅读 · 4月3日

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Arxiv

0+阅读 · 3月31日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Arxiv

0+阅读 · 3月19日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员