Embodied Conversational Agents (ECAs) aim to emulate human face-to-face interaction through speech, gestures, and facial expressions. Current large language model (LLM)-based conversational agents lack embodiment and the expressive gestures essential for natural interaction. Existing solutions for ECAs often produce rigid, low-diversity motions, that are unsuitable for human-like interaction. Alternatively, generative methods for co-speech gesture synthesis yield natural body gestures but depend on future speech context and require long run-times. To bridge this gap, we present MIBURI, the first online, causal framework for generating expressive full-body gestures and facial expressions synchronized with real-time spoken dialogue. We employ body-part aware gesture codecs that encode hierarchical motion details into multi-level discrete tokens. These tokens are then autoregressively generated by a two-dimensional causal framework conditioned on LLM-based speech-text embeddings, modeling both temporal dynamics and part-level motion hierarchy in real time. Further, we introduce auxiliary objectives to encourage expressive and diverse gestures while preventing convergence to static poses. Comparative evaluations demonstrate that our causal and real-time approach produces natural and contextually aligned gestures against recent baselines. We urge the reader to explore demo videos on https://vcai.mpi-inf.mpg.de/projects/MIBURI/.


翻译:具身对话智能体旨在通过语音、手势和面部表情模拟人类面对面的互动。当前基于大语言模型的对话智能体缺乏具身性和自然交互所必需的表现性手势。现有具身对话智能体解决方案常产生僵硬、低多样性的动作,不适合类人交互。另一方面,用于共语言手势生成的生成式方法虽能产生自然的身体手势,却依赖未来语音上下文且需要较长运行时间。为弥补这一差距,我们提出MIBURI——首个在线因果框架,用于生成与实时口语对话同步的富有表现力的全身手势和面部表情。我们采用身体部位感知的手势编解码器,将层次化运动细节编码为多级离散标记。这些标记随后由基于语音-文本嵌入的二维因果框架自回归生成,实时建模时间动态和部位级运动层次。此外,我们引入辅助目标以鼓励表现力与多样性手势,同时防止收敛至静态姿势。对比评估表明,与近期基线方法相比,我们的因果实时方法能产生自然且上下文对齐的手势。我们建议读者访问 https://vcai.mpi-inf.mpg.de/projects/MIBURI/ 观看演示视频。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
专知会员服务
55+阅读 · 2025年3月19日
【博士论文】基于视觉的手语处理:识别、翻译与生成
专知会员服务
13+阅读 · 2025年3月3日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
专知会员服务
34+阅读 · 2021年10月11日
SMP 2019 第三届中文人机对话技术评测顺利落幕
哈工大SCIR
12+阅读 · 2019年8月19日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2023年5月22日
VIP会员
相关主题
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
专知会员服务
55+阅读 · 2025年3月19日
【博士论文】基于视觉的手语处理:识别、翻译与生成
专知会员服务
13+阅读 · 2025年3月3日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
专知会员服务
34+阅读 · 2021年10月11日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员