Discovering physical laws directly from high-dimensional visual data is a long-standing human pursuit but remains a formidable challenge for machines, representing a fundamental goal of scientific intelligence. This task is inherently difficult because physical knowledge is low-dimensional and structured, whereas raw video observations are high-dimensional and redundant, with most pixels carrying little or no physical meaning. Extracting concise, physically relevant variables from such noisy data remains a key obstacle. To address this, we propose Pixel2Phys, a collaborative multi-agent framework adaptable to any Multimodal Large Language Model (MLLM). It emulates human scientific reasoning by employing a structured workflow to extract formalized physical knowledge through iterative hypothesis generation, validation, and refinement. By repeatedly formulating, and refining candidate equations on high-dimensional data, it identifies the most concise representations that best capture the underlying physical evolution. This automated exploration mimics the iterative workflow of human scientists, enabling AI to reveal interpretable governing equations directly from raw observations. Across diverse simulated and real-world physics videos, Pixel2Phys discovers accurate, interpretable governing equations and maintaining stable long-term extrapolation where baselines rapidly diverge.


翻译:直接从高维视觉数据中发现物理定律是人类长期以来的追求,但对机器而言仍是一项艰巨的挑战,这代表了科学智能的一个根本目标。该任务本质上是困难的,因为物理知识是低维且结构化的,而原始视频观测则是高维且冗余的,大多数像素携带很少或根本没有物理意义。从这类噪声数据中提取简洁且物理相关的变量仍然是一个关键障碍。为解决此问题,我们提出Pixel2Phys,这是一个可适配于任何多模态大语言模型(MLLM)的协作式多智能体框架。它通过采用结构化工作流,经由迭代的假设生成、验证与精炼来提取形式化的物理知识,从而模拟人类的科学推理过程。通过对高维数据反复构建并精炼候选方程,它识别出最能捕捉底层物理演化的最简洁表示。这种自动化探索模拟了人类科学家的迭代工作流程,使人工智能能够直接从原始观测中揭示可解释的支配方程。在多种模拟和真实世界的物理视频中,Pixel2Phys发现了准确、可解释的支配方程,并在基线方法迅速发散的情况下保持了稳定的长期外推能力。

0
下载
关闭预览

相关内容

稀疏点云感知的表示学习
专知会员服务
9+阅读 · 2月9日
【斯坦福博士论文】从互联网视频中学习感知物理世界
专知会员服务
23+阅读 · 2024年12月30日
仿生感存算一体视觉系统:仿生机制、设计原理及其应用
专知会员服务
30+阅读 · 2023年11月30日
【AAAI2022】不确定性感知的多视角表示学习
专知会员服务
47+阅读 · 2022年1月25日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员