Generating realistic human-human interactions is a challenging task that requires not only high-quality individual body and hand motions, but also coherent coordination among all interactants. Due to limitations in available data and increased learning complexity, previous methods tend to ignore hand motions, limiting the realism and expressivity of the interactions. Additionally, current diffusion-based approaches generate entire motion sequences simultaneously, limiting their ability to capture the reactive and adaptive nature of human interactions. To address these limitations, we introduce Interact2Ar, the first end-to-end text-conditioned autoregressive diffusion model for generating full-body, human-human interactions. Interact2Ar incorporates detailed hand kinematics through dedicated parallel branches, enabling high-fidelity full-body generation. Furthermore, we introduce an autoregressive pipeline coupled with a novel memory technique that facilitates adaptation to the inherent variability of human interactions using efficient large context windows. The adaptability of our model enables a series of downstream applications, including temporal motion composition, real-time adaptation to disturbances, and extension beyond dyadic to multi-person scenarios. To validate the generated motions, we introduce a set of robust evaluators and extended metrics designed specifically for assessing full-body interactions. Through quantitative and qualitative experiments, we demonstrate the state-of-the-art performance of Interact2Ar.


翻译:生成逼真的人-人交互是一项具有挑战性的任务,它不仅需要高质量的单人身体与手部运动,还要求所有交互者之间具备连贯的协调性。由于可用数据的限制和学习复杂性的增加,先前的方法往往忽略手部运动,从而限制了交互的真实性与表现力。此外,当前基于扩散的方法同时生成整个运动序列,限制了其捕捉人类交互反应性与自适应特性的能力。为解决这些局限性,我们提出了Interact2Ar,首个用于生成全身体人-人交互的端到端文本条件自回归扩散模型。Interact2Ar通过专用的并行分支整合了详细的手部运动学,实现了高保真度的全身体生成。此外,我们引入了一种结合新型记忆技术的自回归流程,该技术利用高效的大上下文窗口,促进模型适应人类交互固有的可变性。我们模型的适应性使其能够支持一系列下游应用,包括时序运动组合、对干扰的实时适应,以及从双人交互扩展到多人场景。为验证生成的运动,我们引入了一套专门用于评估全身体交互的鲁棒评估器与扩展指标。通过定量与定性实验,我们证明了Interact2Ar的先进性能。

0
下载
关闭预览

相关内容

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员