PhyCo: Learning Controllable Physical Priors for Generative Motion - 专知论文

会员服务 ·

0

视频 · 可控 · 属性 · 一致 · 物理属性 ·

PhyCo: Learning Controllable Physical Priors for Generative Motion

翻译：PhyCo：面向生成式运动可控物理先验的学习

Sriram Narayanan,Ziyu Jiang,Srinivasa Narasimhan,Manmohan Chandraker

from arxiv, CVPR 2026. Project Page: https://phyco-video.github.io/

Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.

翻译：现代视频扩散模型在视觉外观合成方面表现出色，但仍面临物理一致性问题：物体漂浮漂移、碰撞缺乏真实回弹效果、材料响应与固有属性不符。本文提出PhyCo框架，将连续、可解释且基于物理约束的控制引入视频生成。该框架包含三大核心组件：(i) 超10万张照片级仿真视频的大规模数据集，在摩擦系数、恢复系数、形变参数和受力条件等维度上进行系统化场景变异；(ii) 基于物理监督的预训练扩散模型微调，通过以像素对齐的物理属性图为条件的ControlNet实现；(iii) 视觉语言模型引导的奖励优化，由经过微调的视觉语言模型通过定向物理查询评估生成视频，并提供可微分反馈。该技术组合使生成模型能够通过物理属性变化，产出物理一致且可控的输出结果，且推理阶段无需任何仿真器或几何重建。在Physics-IQ基准测试中，PhyCo相较强基线显著提升物理真实性，人类测评验证了其对物理属性更清晰、更可靠的操控能力。研究结果表明，该方法为构建超越合成训练环境的物理一致可控生成式视频模型提供了可扩展路径。

0

相关内容

视频

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

【CVPR2026】面向物理一致性视频生成的事件中心型因果思维链

【CVPR2026】面向物理一致性视频生成的事件中心型因果思维链

专知会员服务

11+阅读 · 3月11日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

专知会员服务

14+阅读 · 2025年11月30日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

17+阅读 · 2025年3月30日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

专知会员服务

66+阅读 · 2023年9月10日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍

【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍

产业智能官

19+阅读 · 2019年1月27日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知

16+阅读 · 2018年1月21日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用电场下锂离子迁移调控氧化物的磁性

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

调控光场实现超分辨显微成像的理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

铁磁金属和氧化物界面的相互作用、自旋注入和调控

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于电磁幅相调制人工结构材料的波束动态操控机理及实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

PhysMorph-GS: Render-Guided Volumetric Morphing with Differentiable Physics

Arxiv

0+阅读 · 4月20日

Watching Physics: the Generative Science of Matter and Motion

Arxiv

0+阅读 · 4月18日

PhysInOne: Visual Physics Learning and Reasoning in One Suite

Arxiv

0+阅读 · 4月10日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning

Arxiv

0+阅读 · 4月7日

PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis

Arxiv

0+阅读 · 4月6日

PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis

Arxiv

0+阅读 · 4月2日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

PACE: Physics Augmentation for Coordinated End-to-end Reinforcement Learning toward Versatile Humanoid Table Tennis

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

【CVPR2026】面向物理一致性视频生成的事件中心型因果思维链

【CVPR2026】面向物理一致性视频生成的事件中心型因果思维链

专知会员服务

11+阅读 · 3月11日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

专知会员服务

14+阅读 · 2025年11月30日

视频生成中的物理认知演进探究：一项综述

视频生成中的物理认知演进探究：一项综述

专知会员服务

17+阅读 · 2025年3月30日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

什么是物理信息强化学习？昆士兰科技大学的等最新《物理信息强化学习》综述，详述PRTL技术方法

专知会员服务

66+阅读 · 2023年9月10日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍

【数字孪生】【CPS】赛博物理系统CPS和数字孪生介绍

产业智能官

19+阅读 · 2019年1月27日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知

16+阅读 · 2018年1月21日

相关论文

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

PhysMorph-GS: Render-Guided Volumetric Morphing with Differentiable Physics

Arxiv

0+阅读 · 4月20日

Watching Physics: the Generative Science of Matter and Motion

Arxiv

0+阅读 · 4月18日

PhysInOne: Visual Physics Learning and Reasoning in One Suite

Arxiv

0+阅读 · 4月10日

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Arxiv

0+阅读 · 4月9日

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning

Arxiv

0+阅读 · 4月7日

PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis

Arxiv

0+阅读 · 4月6日

PhysGaia: A Physics-Aware Benchmark with Multi-Body Interactions for Dynamic Novel View Synthesis

Arxiv

0+阅读 · 4月2日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

PACE: Physics Augmentation for Coordinated End-to-end Reinforcement Learning toward Versatile Humanoid Table Tennis

Arxiv

0+阅读 · 3月18日

相关基金

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用电场下锂离子迁移调控氧化物的磁性

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

调控光场实现超分辨显微成像的理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

铁磁金属和氧化物界面的相互作用、自旋注入和调控

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于电磁幅相调制人工结构材料的波束动态操控机理及实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员