We present HSImul3R, a unified framework for simulation-ready 3D reconstruction of human-scene interactions (HSI) from casual captures, including sparse-view images and monocular videos. Existing methods suffer from a perception-simulation gap: visually plausible reconstructions often violate physical constraints, leading to instability in physics engines and failure in embodied AI applications. To bridge this gap, we introduce a physically-grounded bi-directional optimization pipeline that treats the physics simulator as an active supervisor to jointly refine human dynamics and scene geometry. In the forward direction, we employ Scene-targeted Reinforcement Learning to optimize human motion under dual supervision of motion fidelity and contact stability. In the reverse direction, we propose Direct Simulation Reward Optimization, which leverages simulation feedback on gravitational stability and interaction success to refine scene geometry. We further present HSIBench, a new benchmark with diverse objects and interaction scenarios. Extensive experiments demonstrate that HSImul3R produces the first stable, simulation-ready HSI reconstructions and can be directly deployed to real-world humanoid robots.


翻译:我们提出了HSImul3R,一个用于从稀疏视角图像和单目视频等随意捕捉数据中,实现仿真就绪的人类-场景交互三维重建的统一框架。现有方法存在感知与仿真的鸿沟:视觉上看似合理的重建结果常常违反物理约束,导致在物理引擎中不稳定,并在具身人工智能应用中失败。为弥合这一鸿沟,我们引入了一种基于物理的双向优化流程,将物理仿真器作为主动监督器,联合优化人体动力学与场景几何。在前向过程中,我们采用场景导向强化学习,在运动保真度与接触稳定性的双重监督下优化人体运动。在反向过程中,我们提出了直接仿真奖励优化,利用仿真器在重力稳定性与交互成功率方面的反馈来优化场景几何。我们还进一步提出了HSIBench,一个包含多样化物体与交互场景的新基准。大量实验表明,HSImul3R能够生成首个稳定、仿真就绪的HSI重建结果,并可直接部署于真实世界的人形机器人。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
14+阅读 · 4月30日
前馈式三维场景建模
专知会员服务
10+阅读 · 4月17日
【CMU博士论文】学习创建三维内容:几何、外观与物理
专知会员服务
13+阅读 · 2025年9月2日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
9+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
14+阅读 · 4月30日
前馈式三维场景建模
专知会员服务
10+阅读 · 4月17日
【CMU博士论文】学习创建三维内容:几何、外观与物理
专知会员服务
13+阅读 · 2025年9月2日
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员