Actionable World Representation - 专知论文

会员服务 ·

0

操作 · 表示 · 物理世界 · 视频 · 构建 ·

Actionable World Representation

翻译：可操作世界表示

Kunqi Xu,Jitao Li,Jianglong Ye,Tianshu Tang,Isabella Liu,Sifei Liu,Xueyan Zou

Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.

翻译：受大型语言模型中涌现出类人智能行为的启发，研究界正致力于在世界模型中探索类似的涌现能力，重点关注物理世界的建模。在物理世界模型的范畴内，物体是构成物理现实的基本基元。从人类到计算机，我们几乎与之交互的一切都是物体。这些物体很少是静态的；它们是具有内在属性所决定的不同状态的可操作实体。虽然当前方法通过视频生成或动态场景重建来处理物体的动作状态，但尚无一种方法以统一且规范的方式显式建模这一基本元素以构建可操作的物体表示。我们提出WorldString，这是一种神经架构，能够通过直接从点云或RGB-D视频流中学习来对现实世界物体的状态流形进行建模。作为通用的数字孪生体，它充当物理世界模型的基础构建块；因此，我们将其命名为WorldString。巧妙的是，其完全可微的结构无缝地支持了未来与策略学习和神经动力学的集成。

0

相关内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

30+阅读 · 6月2日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

23+阅读 · 4月28日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

53+阅读 · 2025年10月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

专知会员服务

30+阅读 · 2022年6月7日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

网络表示学习概述

网络表示学习概述

机器学习与推荐算法

20+阅读 · 2020年3月27日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

这是一份通俗易懂的知识图谱技术应用落地指南

这是一份通俗易懂的知识图谱技术应用落地指南

51CTO博客

24+阅读 · 2019年3月15日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

高维晶格动力学的准确数值界面条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Arxiv

0+阅读 · 6月16日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

Critique of World Model: A Generative Latent Prediction Architecture for World Modeling

Arxiv

0+阅读 · 6月16日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

Making Foresight Actionable: Repurposing Representation Alignment in World Action Models

Arxiv

0+阅读 · 6月10日

Audio-Visual World Models: Grounding Multisensory Imagination for Embodied Agents

Arxiv

0+阅读 · 6月5日

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Arxiv

0+阅读 · 6月1日

WorldParticle: Unified World Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月20日

WorldParticle: Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月19日

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

3+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

5+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

30+阅读 · 6月2日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

23+阅读 · 4月28日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

53+阅读 · 2025年10月21日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

专知会员服务

30+阅读 · 2022年6月7日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

网络表示学习概述

网络表示学习概述

机器学习与推荐算法

20+阅读 · 2020年3月27日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

这是一份通俗易懂的知识图谱技术应用落地指南

这是一份通俗易懂的知识图谱技术应用落地指南

51CTO博客

24+阅读 · 2019年3月15日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

相关论文

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Arxiv

0+阅读 · 6月16日

ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Arxiv

0+阅读 · 6月16日

Critique of World Model: A Generative Latent Prediction Architecture for World Modeling

Arxiv

0+阅读 · 6月16日

A Tutorial on World Models and Physical AI

Arxiv

0+阅读 · 6月11日

Making Foresight Actionable: Repurposing Representation Alignment in World Action Models

Arxiv

0+阅读 · 6月10日

Audio-Visual World Models: Grounding Multisensory Imagination for Embodied Agents

Arxiv

0+阅读 · 6月5日

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Arxiv

0+阅读 · 6月1日

WorldParticle: Unified World Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月20日

WorldParticle: Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月19日

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Arxiv

0+阅读 · 5月14日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

高维晶格动力学的准确数值界面条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员