Generating realistic human-object interaction (HOI) animations remains challenging because it requires jointly modeling dynamic human actions and diverse object geometries. Prior diffusion-based approaches often rely on hand-crafted contact priors or human-imposed kinematic constraints to improve contact quality. We propose LIGHT, a data-driven alternative in which guidance emerges from the denoising pace itself, reducing dependence on manually designed priors. Building on diffusion forcing, we factor the representation into modality-specific components and assign individualized noise levels with asynchronous denoising schedules. In this paradigm, cleaner components guide noisier ones through cross-attention, yielding guidance without auxiliary classifiers. We find that this data-driven guidance is inherently contact-aware, and can be enhanced when training is augmented with a broad spectrum of synthetic object geometries, encouraging invariance of contact semantics to geometric diversity. Extensive experiments show that pace-induced guidance more effectively mirrors the benefits of contact priors than conventional classifier-free guidance, while achieving higher contact fidelity, more realistic HOI generation, and stronger generalization to unseen objects and tasks.


翻译:生成逼真的人类-物体交互动画仍具挑战性,因其需要联合建模动态人体动作与多样化的物体几何结构。现有基于扩散的方法通常依赖手工设计的接触先验或人为施加的运动学约束来提升接触质量。我们提出LIGHT这一数据驱动替代方案,其中引导信号源自去噪过程本身的速度差异,从而降低对人工设计先验的依赖。基于扩散强制机制,我们将表征分解为模态特定组件,并为各组件赋予异步去噪调度下的独立噪声水平。在此范式下,较干净的组件通过交叉注意力引导较噪声组件,无需辅助分类器即可实现引导。我们发现这种数据驱动引导天然具有接触感知特性,当训练中注入大规模合成物体几何数据增强时,该特性可进一步提升——这促使接触语义对几何多样性保持不变性。大量实验表明,速度诱导的引导比传统无分类器引导更有效地复现接触先验的优势,同时实现更高的接触保真度、更真实的HOI生成以及更强的未见物体与任务泛化能力。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
首篇《人类视频生成》全面综述:挑战、方法和见解
专知会员服务
34+阅读 · 2024年7月14日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
无需干净样本,英伟达AI去马赛克
AR酱
10+阅读 · 2018年7月13日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关资讯
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
无需干净样本,英伟达AI去马赛克
AR酱
10+阅读 · 2018年7月13日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员