Inspired by the emergent behaviors in large language models that generalized human intelligence, the research community is pursuing similar emergent capabilities within world models, with a emphasis on modeling the physical world. Within the scope of physical world model, objects are the fundamental primitives that constitute physical reality. From humans to computers, nearly everything we interact with is an object. These objects are rarely static; they are actionable entities with varying states determined by their intrinsic properties. While current methods approach object action states either via video generation or dynamic scene reconstruction, none explicitly model this basic element in a unified, principled way to build an actionable object representation. We propose WorldString, a neural architecture capable of modeling the state manifold of real-world objects by learning directly from point clouds or RGB-D video streams. Serving as a versatile digital twin, it acts as a foundational building block for physical world models; thus, we name it WorldString. Sweetly, its fully differentiable structure seamlessly enables future integration with policy learning and neural dynamics.


翻译:受大型语言模型中涌现出类人智能行为的启发,研究界正致力于在世界模型中探索类似的涌现能力,重点关注物理世界的建模。在物理世界模型的范畴内,物体是构成物理现实的基本基元。从人类到计算机,我们几乎与之交互的一切都是物体。这些物体很少是静态的;它们是具有内在属性所决定的不同状态的可操作实体。虽然当前方法通过视频生成或动态场景重建来处理物体的动作状态,但尚无一种方法以统一且规范的方式显式建模这一基本元素以构建可操作的物体表示。我们提出WorldString,这是一种神经架构,能够通过直接从点云或RGB-D视频流中学习来对现实世界物体的状态流形进行建模。作为通用的数字孪生体,它充当物理世界模型的基础构建块;因此,我们将其命名为WorldString。巧妙的是,其完全可微的结构无缝地支持了未来与策略学习和神经动力学的集成。

0
下载
关闭预览

相关内容

智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
这是一份通俗易懂的知识图谱技术应用落地指南
51CTO博客
24+阅读 · 2019年3月15日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
4+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
4+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
5+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
8+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
6+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
8+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员