The ability to transform a flat sheet into a complex three-dimensional structure is a fundamental test of physical intelligence. Unlike cloth manipulation, origami is governed by strict geometric axioms and hard kinematic constraints, where a single invalid crease or collision can invalidate the entire folding sequence. As a result, origami demands long-horizon constructive reasoning that jointly satisfies precise physical laws and high-level semantic intent. Existing approaches fall into two disjoint paradigms: optimization-based methods enforce physical validity but require dense, precisely specified inputs, making them unsuitable for sparse natural language descriptions, while generative foundation models excel at semantic and perceptual synthesis yet fail to produce long-horizon, physics-consistent folding processes. Consequently, generating valid origami folding sequences directly from text remains an open challenge. To address this gap, we introduce Learn2Fold, a neuro-symbolic framework that formulates origami folding as conditional program induction over a crease-pattern graph. Our key insight is to decouple semantic proposal from physical verification. A large language model generates candidate folding programs from abstract text prompts, while a learned graph-structured world model serves as a differentiable surrogate simulator that predicts physical feasibility and failure modes before execution. Integrated within a lookahead planning loop, Learn2Fold enables robust generation of physically valid folding sequences for complex and out-of-distribution patterns, demonstrating that effective spatial intelligence arises from the synergy between symbolic reasoning and grounded physical simulation.


翻译:将平面薄片转化为复杂三维结构的能力,是物理智能的核心考验。与布料操作不同,折纸受严格的几何公理和刚性运动学约束,单个无效折痕或碰撞即可使整个折叠序列失效。因此,折纸需要长期跨度的建构性推理,同时满足精确物理定律与高层语义意图。现有方法分为两类互不兼容的范式:基于优化的方法能确保物理有效性,但需稠密且精确的输入,无法适配稀疏的自然语言描述;而生成式基础模型虽擅长语义与感知合成,却难以生成符合物理规律的长期折叠过程。由此,直接从文本生成有效折纸序列仍是开放挑战。为解决此问题,我们提出Learn2Fold——一种将折纸建模为基于折痕图的条件程序归纳的神经符号框架。核心思路在于将语义提议与物理验证解耦:大语言模型根据抽象文本提示生成候选折叠程序,而可学习的图结构世界模型作为可微分代理仿真器,在执行前预判物理可行性及失效模式。通过集成前瞻规划循环,Learn2Fold能鲁棒地生成复杂与分布外模式的物理有效折叠序列,表明有效空间智能源于符号推理与具身物理仿真的协同。

0
下载
关闭预览

相关内容

【WWW2023】面向结构化知识的预训练语言大模型
专知会员服务
60+阅读 · 2023年8月4日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
从头开始了解Transformer
AI科技评论
25+阅读 · 2019年8月28日
常用的模型集成方法介绍:bagging、boosting 、stacking
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
从头开始了解Transformer
AI科技评论
25+阅读 · 2019年8月28日
常用的模型集成方法介绍:bagging、boosting 、stacking
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员