OrigamiBench: An Interactive Environment to Synthesize Flat-Foldable Origamis - 专知论文

会员服务 ·

0

交互 · 系统 · 合成 · 构建 · 识别 ·

OrigamiBench: An Interactive Environment to Synthesize Flat-Foldable Origamis

翻译：OrigamiBench：用于合成可平面折叠折纸的交互式环境

Naaisha Agarwal,Yihan Wu,Yichang Jian,Yikuan Hu,Nishad Mansoor,Mohan Li,Yifei Peng,Wang-Zhou Dai,Yao-Xiang Ding,Emanuele Sansone

Building AI systems that can plan, act, and create in the physical world requires more than pattern recognition. Such systems must understand the causal mechanisms and constraints governing physical processes in order to guide sequential decisions. This capability relies on internal representations, analogous to an internal language model, that relate observations, actions, and resulting environmental changes. However, many existing benchmarks treat visual perception and programmatic reasoning as separate problems, focusing either on visual recognition or on symbolic tasks. The domain of origami provides a natural testbed that integrates these modalities. Constructing shapes through folding operations requires visual perception, reasoning about geometric and physical constraints, and sequential planning, while remaining sufficiently structured for systematic evaluation. We introduce OrigamiBench, an interactive benchmark in which models iteratively propose folds and receive feedback on physical validity and similarity to a target configuration. Experiments with modern vision-language models show that scaling model size alone does not reliably produce causal reasoning about physical transformations. Models fail to generate coherent multi-step folding strategies, suggesting that visual and language representations remain weakly integrated.

翻译：构建能够在物理世界中规划、行动和创造的人工智能系统，仅靠模式识别是不够的。这类系统必须理解支配物理过程的因果机制与约束，才能指导序列决策。这种能力依赖于内部表征——类似于一种内部语言模型——来关联观察、行动以及由此产生的环境变化。然而，许多现有基准将视觉感知与程序化推理视为独立问题，要么侧重于视觉识别，要么侧重于符号任务。折纸领域提供了一个自然整合这些模态的测试平台。通过折叠操作构建形状需要视觉感知、对几何与物理约束的推理以及序列规划，同时其结构又足够规整以进行系统评估。我们提出了OrigamiBench，这是一个交互式基准测试，模型在其中迭代地提出折叠步骤，并接收关于物理有效性和与目标构型相似性的反馈。对现代视觉-语言模型的实验表明，仅扩大模型规模并不能可靠地产生关于物理变换的因果推理。模型无法生成连贯的多步骤折叠策略，这表明视觉与语言表征的整合仍然薄弱。

0

相关内容

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

【博士论文】通过学习可组合能量场景来学习可泛化系统

【博士论文】通过学习可组合能量场景来学习可泛化系统

专知会员服务

14+阅读 · 2025年5月10日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

34+阅读 · 2024年6月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

203+阅读 · 2024年1月9日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

63+阅读 · 2022年11月27日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于皮肤毛囊光学相干层析（OCT）成像的三维断层生物特征识别新方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

From Folding Mechanics to Robotic Function: A Unified Modeling Framework for Compliant Origami

Arxiv

0+阅读 · 3月16日

URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation

Arxiv

0+阅读 · 3月14日

InterDeepResearch: Enabling Human-Agent Collaborative Information Seeking through Interactive Deep Research

Arxiv

0+阅读 · 3月13日

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Arxiv

0+阅读 · 3月9日

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

MIBURI: Towards Expressive Interactive Gesture Synthesis

Arxiv

0+阅读 · 3月3日

StackingNet: Collective Inference Across Independent AI Foundation Models

Arxiv

0+阅读 · 2月14日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

VIP会员

文章信息

相关主题

最新内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

1+阅读 · 今天15:17

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

3+阅读 · 今天13:05

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

2+阅读 · 今天13:00

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

0+阅读 · 今天12:47

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

专知会员服务

7+阅读 · 5月3日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

6+阅读 · 5月3日

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

专知会员服务

10+阅读 · 5月3日

《无人机与大规模齐射攻击：美国-以色列的经验教训》

《无人机与大规模齐射攻击：美国-以色列的经验教训》

专知会员服务

14+阅读 · 5月3日

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

专知会员服务

5+阅读 · 5月3日

《军事人工智能中的法律、伦理和技术困境》338页书籍

《军事人工智能中的法律、伦理和技术困境》338页书籍

专知会员服务

3+阅读 · 5月3日

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

专知会员服务

5+阅读 · 5月3日

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

11+阅读 · 5月2日

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

8+阅读 · 5月2日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

9+阅读 · 5月2日

相关VIP内容

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

【博士论文】通过学习可组合能量场景来学习可泛化系统

【博士论文】通过学习可组合能量场景来学习可泛化系统

专知会员服务

14+阅读 · 2025年5月10日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

34+阅读 · 2024年6月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

203+阅读 · 2024年1月9日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

【牛津大学博士论文】学习用几何和语义表示场景，149页pdf

专知会员服务

63+阅读 · 2022年11月27日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】机器人学习中的世界模型：全面综述

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

伊朗的导弹-无人机行动及其对美国威慑的影响

相关资讯

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

【技术分享】智能感知与计算研究中心NIPS 2017论文提出深度离散哈希算法，可用于图像检索

机器学习研究会

12+阅读 · 2017年11月3日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

From Folding Mechanics to Robotic Function: A Unified Modeling Framework for Compliant Origami

Arxiv

0+阅读 · 3月16日

URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation

Arxiv

0+阅读 · 3月14日

InterDeepResearch: Enabling Human-Agent Collaborative Information Seeking through Interactive Deep Research

Arxiv

0+阅读 · 3月13日

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Arxiv

0+阅读 · 3月9日

ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning

Arxiv

0+阅读 · 3月4日

MIBURI: Towards Expressive Interactive Gesture Synthesis

Arxiv

0+阅读 · 3月3日

StackingNet: Collective Inference Across Independent AI Foundation Models

Arxiv

0+阅读 · 2月14日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Arxiv

0+阅读 · 2月4日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于皮肤毛囊光学相干层析（OCT）成像的三维断层生物特征识别新方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员