Vid2Sid: Videos Can Help Close the Sim2Real Gap - 专知论文

会员服务 ·

0

视频 · 优化器 · 物理参数 · 黑盒 · 分析 ·

Vid2Sid: Videos Can Help Close the Sim2Real Gap

翻译：Vid2Sid：视频助力缩小仿真与现实差距

Kevin Qiu,Yu Zhang,Marek Cygan,Josie Hughes

Calibrating a robot simulator's physics parameters (friction, damping, material stiffness) to match real hardware is often done by hand or with black-box optimizers that reduce error but cannot explain which physical discrepancies drive the error. When sensing is limited to external cameras, the problem is further compounded by perception noise and the absence of direct force or state measurements. We present Vid2Sid, a video-driven system identification pipeline that couples foundation-model perception with a VLM-in-the-loop optimizer that analyzes paired sim-real videos, diagnoses concrete mismatches, and proposes physics parameter updates with natural language rationales. We evaluate our approach on a tendon-actuated finger (rigid-body dynamics in MuJoCo) and a deformable continuum tentacle (soft-body dynamics in PyElastica). On sim2real holdout controls unseen during training, Vid2Sid achieves the best average rank across all settings, matching or exceeding black-box optimizers while uniquely providing interpretable reasoning at each iteration. Sim2sim validation confirms that Vid2Sid recovers ground-truth parameters most accurately (mean relative error under 13\% vs. 28--98\%), and ablation analysis reveals three calibration regimes. VLM-guided optimization excels when perception is clean and the simulator is expressive, while model-class limitations bound performance in more challenging settings.

翻译：校准机器人仿真器的物理参数（如摩擦、阻尼、材料刚度）以匹配真实硬件，通常通过手动调整或使用黑盒优化器完成。这些方法虽能减少误差，却无法解释具体哪些物理差异导致了误差。当感知仅限于外部摄像头时，该问题会因感知噪声以及缺乏直接的力或状态测量而进一步复杂化。本文提出Vid2Sid，一种视频驱动的系统辨识流程。该流程将基础模型的感知能力与一个VLM-in-the-loop优化器相结合，通过分析成对的仿真-现实视频，诊断具体的不匹配之处，并以自然语言解释的形式提出物理参数更新建议。我们在肌腱驱动手指（基于MuJoCo的刚体动力学）和可变形连续体触手（基于PyElastica的软体动力学）上评估了该方法。在训练中未见过的仿真到现实控制任务中，Vid2Sid在所有设置下取得了最佳的平均排名，其性能匹配或超越了黑盒优化器，同时独特地在每次迭代中提供了可解释的推理过程。仿真到仿真的验证证实，Vid2Sid能最准确地恢复真实参数（平均相对误差低于13%，对比基准方法的28%至98%），消融分析揭示了三种校准机制。当感知数据清晰且仿真器表达能力充足时，VLM引导的优化表现出色；而在更具挑战性的场景中，模型类别的局限性则成为性能瓶颈。

0

相关内容

视频

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

专知会员服务

49+阅读 · 2023年12月13日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

75+阅读 · 2023年2月6日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

118+阅读 · 2022年6月20日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

专知会员服务

19+阅读 · 2019年10月30日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

一次拍摄搞定多相机自动化标定

一次拍摄搞定多相机自动化标定

计算机视觉life

12+阅读 · 2018年4月1日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Arxiv

0+阅读 · 3月5日

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Arxiv

0+阅读 · 3月1日

SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly

Arxiv

0+阅读 · 2月26日

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

Arxiv

0+阅读 · 2月25日

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Arxiv

0+阅读 · 2月20日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 2月13日

Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning

Arxiv

0+阅读 · 2月13日

ReaDy-Go: Real-to-Sim Dynamic 3D Gaussian Splatting Simulation for Environment-Specific Visual Navigation with Moving Obstacles

Arxiv

0+阅读 · 2月12日

VIP会员

文章信息

相关主题

最新内容

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

2+阅读 · 43分钟前

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

0+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

1+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

0+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

1+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

6+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

11+阅读 · 4月21日

相关VIP内容

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

专知会员服务

49+阅读 · 2023年12月13日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知会员服务

51+阅读 · 2023年4月12日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

75+阅读 · 2023年2月6日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

118+阅读 · 2022年6月20日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

【ICCV 2019 Tutorial】Learning to enhance in the real world（在现实世界中学习增强），苏黎世联邦理工学院 Martin Danelljan副教授

专知会员服务

19+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能即服务与未来战争（印度视角）

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

一次拍摄搞定多相机自动化标定

一次拍摄搞定多相机自动化标定

计算机视觉life

12+阅读 · 2018年4月1日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月17日

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Arxiv

0+阅读 · 3月10日

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Arxiv

0+阅读 · 3月5日

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Arxiv

0+阅读 · 3月1日

SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly

Arxiv

0+阅读 · 2月26日

ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning

Arxiv

0+阅读 · 2月25日

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Arxiv

0+阅读 · 2月20日

Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Arxiv

0+阅读 · 2月13日

Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning

Arxiv

0+阅读 · 2月13日

ReaDy-Go: Real-to-Sim Dynamic 3D Gaussian Splatting Simulation for Environment-Specific Visual Navigation with Moving Obstacles

Arxiv

0+阅读 · 2月12日

相关基金

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员