Reconstructing dynamic hand-object interactions from monocular videos is critical for dexterous manipulation data collection and creating realistic digital twins for robotics and VR. However, current methods face two prohibitive barriers: (1) reliance on neural rendering often yields fragmented, non-simulation-ready geometries under heavy occlusion, and (2) dependence on brittle Structure-from-Motion (SfM) initialization leads to frequent failures on in-the-wild footage. To overcome these limitations, we introduce AGILE, a robust framework that shifts the paradigm from reconstruction to agentic generation for interaction learning. First, we employ an agentic pipeline where a Vision-Language Model (VLM) guides a generative model to synthesize a complete, watertight object mesh with high-fidelity texture, independent of video occlusions. Second, bypassing fragile SfM entirely, we propose a robust anchor-and-track strategy. We initialize the object pose at a single interaction onset frame using a foundation model and propagate it temporally by leveraging the strong visual similarity between our generated asset and video observations. Finally, a contact-aware optimization integrates semantic, geometric, and interaction stability constraints to enforce physical plausibility. Extensive experiments on HO3D, DexYCB, ARCTIC, and in-the-wild videos reveal that AGILE outperforms baselines in global geometric accuracy while demonstrating exceptional robustness on challenging sequences where prior arts frequently collapse. By prioritizing physical validity, our method produces simulation-ready assets validated via real-to-sim retargeting for robotic applications. Project page: https://agile-hoi.github.io.


翻译:摘要:从单目视频中重建动态手物交互对于灵巧操作数据收集以及为机器人学和虚拟现实创建逼真的数字孪生至关重要。然而,现有方法面临两大障碍:(1)依赖神经渲染通常在严重遮挡下产生碎片化、不可用于仿真计算的几何结构;(2)依赖脆弱的运动恢复结构(SfM)初始化导致在野外视频中频繁失败。为克服这些局限,我们提出AGILE——一个鲁棒的框架,将交互学习的范式从重建转向智能体生成。首先,我们采用智能体流水线:视觉语言模型(VLM)引导生成模型合成完整且水密的带高保真纹理物体网格,不受视频遮挡影响。其次,彻底绕过脆弱的SfM,我们提出鲁棒的锚点跟踪策略。通过基础模型在单个交互起始帧初始化物体姿态,并利用生成资产与视频观测之间的强视觉相似性进行时序传播。最后,基于接触的优化整合语义、几何与交互稳定性约束以强制执行物理合理性。在HO3D、DexYCB、ARCTIC及野外视频上的大量实验表明:AGILE在全局几何精度上超越基线方法,且在先前技术频繁崩溃的挑战性序列中展现出卓越的鲁棒性。通过优先保证物理有效性,我们的方法可生成经真实到仿真重定向验证的、适用于机器人应用的仿真就绪资产。项目页面:https://agile-hoi.github.io。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
《交互式对抗智能体开发中的行为克隆方法比较》论文
专知会员服务
57+阅读 · 2023年8月20日
专知会员服务
34+阅读 · 2021年10月11日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【数字孪生】面向智能制造的数字孪生
产业智能官
53+阅读 · 2020年5月10日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员