ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning - 专知论文

会员服务 ·

0

一致 · 交互 · 课程 · 视频 · 多视角 ·

ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning

翻译：ByteLoom: 通过渐进式课程学习编织几何一致的人-物交互

Bangya Liu,Xinyu Gong,Zelin Zhao,Ziyang Song,Yulei Lu,Suhui Wu,Jun Zhang,Suman Banerjee,Hao Zhang

Human-object interaction (HOI) video generation has garnered increasing attention due to its promising applications in digital humans, e-commerce, advertising, and robotics imitation learning. However, existing methods face two critical limitations: (1) a lack of effective mechanisms to inject multi-view information of the object into the model, leading to poor cross-view consistency, and (2) heavy reliance on fine-grained hand mesh annotations for modeling interaction occlusions. To address these challenges, we introduce ByteLoom, a Diffusion Transformer (DiT)-based framework that generates realistic HOI videos with geometrically consistent object illustration, using simplified human conditioning and 3D object inputs. We first propose an RCM-cache mechanism that leverages Relative Coordinate Maps (RCM) as a universal representation to maintain object's geometry consistency and precisely control 6-DoF object transformations in the meantime. To compensate HOI dataset scarcity and leverage existing datasets, we further design a training curriculum that enhances model capabilities in a progressive style and relaxes the demand of hand mesh. Extensive experiments demonstrate that our method faithfully preserves human identity and the object's multi-view geometry, while maintaining smooth motion and object manipulation.

翻译：人-物交互（HOI）视频生成因其在数字人、电子商务、广告和机器人模仿学习等领域的应用前景而日益受到关注。然而，现有方法存在两个关键局限：（1）缺乏将物体多视角信息有效注入模型中的机制，导致跨视角一致性差；（2）在建模交互遮挡时严重依赖精细的手部网格标注。为解决这些挑战，我们提出了ByteLoom——一个基于扩散变换器（DiT）的框架，该框架利用简化的人体条件约束和3D物体输入，生成具有几何一致物体表征的逼真HOI视频。我们首先提出RCM缓存机制，利用相对坐标图（RCM）作为通用表征来维持物体几何一致性，同时精确控制物体的6自由度变换。为弥补HOI数据集稀缺性并充分利用现有数据集，我们进一步设计了渐进式训练课程，以分步增强模型能力，并降低对手部网格的强依赖。大量实验证明，本方法在保持平滑运动及物体操控的同时，能够准确保留人体身份特征与物体的多视角几何结构。

0

相关内容

【CMU博士论文】学习创建三维内容：几何、外观与物理

【CMU博士论文】学习创建三维内容：几何、外观与物理

专知会员服务

14+阅读 · 2025年9月2日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

25+阅读 · 2025年8月26日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

不可错过! 哈佛大学最新《可解释人工智能》课程，讲述从简单的预测到复杂的生成模型

不可错过! 哈佛大学最新《可解释人工智能》课程，讲述从简单的预测到复杂的生成模型

专知会员服务

60+阅读 · 2023年6月28日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

专知会员服务

70+阅读 · 2022年9月14日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves

Arxiv

0+阅读 · 6月8日

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

Arxiv

0+阅读 · 5月28日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Physically Plausible Human-Object Rendering from Sparse Views via 3D Gaussian Splatting

Arxiv

0+阅读 · 4月9日

PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation

Arxiv

0+阅读 · 4月2日

A Multimodal Framework for Human-Multi-Agent Interaction

Arxiv

0+阅读 · 3月24日

Three Years with Classroom AI in Introductory Programming: Shifts in Student Awareness, Interaction, and Performance

Arxiv

0+阅读 · 3月24日

Towards an AI Buddy for every University Student? Exploring Students' Experiences, Attitudes and Motivations towards AI and AI-based Study Companions

Arxiv

0+阅读 · 3月21日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

5+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

18+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

9+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【CMU博士论文】学习创建三维内容：几何、外观与物理

【CMU博士论文】学习创建三维内容：几何、外观与物理

专知会员服务

14+阅读 · 2025年9月2日

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

25+阅读 · 2025年8月26日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【ETHZ博士论文】《人类动作与交互的生成式建模》

【ETHZ博士论文】《人类动作与交互的生成式建模》

专知会员服务

16+阅读 · 2025年3月28日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

不可错过! 哈佛大学最新《可解释人工智能》课程，讲述从简单的预测到复杂的生成模型

不可错过! 哈佛大学最新《可解释人工智能》课程，讲述从简单的预测到复杂的生成模型

专知会员服务

60+阅读 · 2023年6月28日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

专知会员服务

50+阅读 · 2023年5月1日

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

专知会员服务

70+阅读 · 2022年9月14日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves

Arxiv

0+阅读 · 6月8日

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

Arxiv

0+阅读 · 5月28日

ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

Arxiv

0+阅读 · 4月21日

Physically Plausible Human-Object Rendering from Sparse Views via 3D Gaussian Splatting

Arxiv

0+阅读 · 4月9日

PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation

Arxiv

0+阅读 · 4月2日

A Multimodal Framework for Human-Multi-Agent Interaction

Arxiv

0+阅读 · 3月24日

Three Years with Classroom AI in Introductory Programming: Shifts in Student Awareness, Interaction, and Performance

Arxiv

0+阅读 · 3月24日

Towards an AI Buddy for every University Student? Exploring Students' Experiences, Attitudes and Motivations towards AI and AI-based Study Companions

Arxiv

0+阅读 · 3月21日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员