HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions - 专知论文

会员服务 ·

0

交互 · 重建 · 基于物理 · 监督 · 稀疏 ·

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

翻译：HSImul3R：基于物理闭环的人类-场景交互仿真就绪重建

Yukang Cao,Haozhe Xie,Fangzhou Hong,Long Zhuo,Zhaoxi Chen,Liang Pan,Ziwei Liu

from arxiv, https://yukangcao.github.io/HSImul3R/

We present HSImul3R, a unified framework for simulation-ready 3D reconstruction of human-scene interactions (HSI) from casual captures, including sparse-view images and monocular videos. Existing methods suffer from a perception-simulation gap: visually plausible reconstructions often violate physical constraints, leading to instability in physics engines and failure in embodied AI applications. To bridge this gap, we introduce a physically-grounded bi-directional optimization pipeline that treats the physics simulator as an active supervisor to jointly refine human dynamics and scene geometry. In the forward direction, we employ Scene-targeted Reinforcement Learning to optimize human motion under dual supervision of motion fidelity and contact stability. In the reverse direction, we propose Direct Simulation Reward Optimization, which leverages simulation feedback on gravitational stability and interaction success to refine scene geometry. We further present HSIBench, a new benchmark with diverse objects and interaction scenarios. Extensive experiments demonstrate that HSImul3R produces the first stable, simulation-ready HSI reconstructions and can be directly deployed to real-world humanoid robots.

翻译：我们提出了HSImul3R，一个用于从稀疏视角图像和单目视频等随意捕捉数据中，实现仿真就绪的人类-场景交互三维重建的统一框架。现有方法存在感知与仿真的鸿沟：视觉上看似合理的重建结果常常违反物理约束，导致在物理引擎中不稳定，并在具身人工智能应用中失败。为弥合这一鸿沟，我们引入了一种基于物理的双向优化流程，将物理仿真器作为主动监督器，联合优化人体动力学与场景几何。在前向过程中，我们采用场景导向强化学习，在运动保真度与接触稳定性的双重监督下优化人体运动。在反向过程中，我们提出了直接仿真奖励优化，利用仿真器在重力稳定性与交互成功率方面的反馈来优化场景几何。我们还进一步提出了HSIBench，一个包含多样化物体与交互场景的新基准。大量实验表明，HSImul3R能够生成首个稳定、仿真就绪的HSI重建结果，并可直接部署于真实世界的人形机器人。

0

相关内容

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

14+阅读 · 4月30日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

10+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

【CMU博士论文】学习创建三维内容：几何、外观与物理

【CMU博士论文】学习创建三维内容：几何、外观与物理

专知会员服务

13+阅读 · 2025年9月2日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

35+阅读 · 2024年8月23日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《人类系统集成 (HSI) 度量贸易空间探索环境 (HMTee) 》美陆军研究实验室2022最新36页技术报告

《人类系统集成 (HSI) 度量贸易空间探索环境 (HMTee) 》美陆军研究实验室2022最新36页技术报告

专知会员服务

14+阅读 · 2022年12月12日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

64+阅读 · 2022年10月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

LHM++: An Efficient Large Human Reconstruction Model for Pose-free Images to 3D

Arxiv

0+阅读 · 3月16日

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Arxiv

0+阅读 · 3月12日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Arxiv

0+阅读 · 3月9日

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Arxiv

0+阅读 · 3月3日

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Arxiv

0+阅读 · 3月1日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Arxiv

0+阅读 · 2月27日

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

9+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

6+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

14+阅读 · 4月30日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

10+阅读 · 4月17日

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

【CMU博士论文】学习创建三维内容：几何、外观与物理

【CMU博士论文】学习创建三维内容：几何、外观与物理

专知会员服务

13+阅读 · 2025年9月2日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

35+阅读 · 2024年8月23日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

【CMU博士论文】开放环境视频中的多人三维重建，184页pdf

专知会员服务

34+阅读 · 2023年10月11日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《人类系统集成 (HSI) 度量贸易空间探索环境 (HMTee) 》美陆军研究实验室2022最新36页技术报告

《人类系统集成 (HSI) 度量贸易空间探索环境 (HMTee) 》美陆军研究实验室2022最新36页技术报告

专知会员服务

14+阅读 · 2022年12月12日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

64+阅读 · 2022年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（下）

AI科技评论

13+阅读 · 2017年11月13日

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

干货 | CCCV 2017讲习班笔记-基于图像的大规模场景三维重建（上）

AI科技评论

10+阅读 · 2017年11月12日

相关论文

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Arxiv

0+阅读 · 3月17日

LHM++: An Efficient Large Human Reconstruction Model for Pose-free Images to 3D

Arxiv

0+阅读 · 3月16日

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Arxiv

0+阅读 · 3月12日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Arxiv

0+阅读 · 3月9日

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Arxiv

0+阅读 · 3月3日

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Arxiv

0+阅读 · 3月1日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Arxiv

0+阅读 · 2月27日

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Arxiv

0+阅读 · 2月26日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员