Reconstructing dynamic hand-object interactions from monocular videos is critical for dexterous manipulation data collection and creating realistic digital twins for robotics and VR. However, current methods face two prohibitive barriers: (1) reliance on neural rendering often yields fragmented, non-simulation-ready geometries under heavy occlusion, and (2) dependence on brittle Structure-from-Motion (SfM) initialization leads to frequent failures on in-the-wild footage. To overcome these limitations, we introduce AGILE, a robust framework that shifts the paradigm from reconstruction to agentic generation for interaction learning. First, we employ an agentic pipeline where a Vision-Language Model (VLM) guides a generative model to synthesize a complete, watertight object mesh with high-fidelity texture, independent of video occlusions. Second, bypassing fragile SfM entirely, we propose a robust anchor-and-track strategy. We initialize the object pose at a single interaction onset frame using a foundation model and propagate it temporally by leveraging the strong visual similarity between our generated asset and video observations. Finally, a contact-aware optimization integrates semantic, geometric, and interaction stability constraints to enforce physical plausibility. Extensive experiments on HO3D, DexYCB, and in-the-wild videos reveal that AGILE outperforms baselines in global geometric accuracy while demonstrating exceptional robustness on challenging sequences where prior art frequently collapses. By prioritizing physical validity, our method produces simulation-ready assets validated via real-to-sim retargeting for robotic applications.


翻译:从单目视频重建动态手-物交互对于灵巧操作数据采集以及为机器人学与虚拟现实创建真实数字孪生体至关重要。然而,现有方法面临两大瓶颈:(1)依赖神经渲染常导致在严重遮挡下产生破碎、无法直接用于仿真的几何结构;(2)依赖脆弱的运动恢复结构初始化方法,使其在真实场景视频中频繁失效。为突破这些限制,我们提出AGILE——一个将交互学习的范式从重建转向智能体生成的鲁棒框架。首先,我们采用智能体流程,通过视觉-语言模型引导生成模型合成具有高保真纹理的完整水密物体网格,其过程独立于视频遮挡。其次,我们完全绕过脆弱的运动恢复结构,提出一种鲁棒的锚点跟踪策略:利用基础模型在单帧交互起始帧初始化物体位姿,并通过生成资产与视频观测间强烈的视觉相似性进行时序传播。最后,通过接触感知优化整合语义、几何与交互稳定性约束,以增强物理合理性。在HO3D、DexYCB及真实场景视频上的大量实验表明,AGILE在全局几何精度上超越基线方法,并在现有方法常失效的挑战性序列中展现出卓越的鲁棒性。通过优先保障物理有效性,本方法产出的仿真就绪资产已通过面向机器人应用的真实-仿真重定向流程验证。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
专知会员服务
34+阅读 · 2021年10月11日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【数字孪生】面向智能制造的数字孪生
产业智能官
52+阅读 · 2020年5月10日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员