Chain Of Interaction Benchmark (COIN): When Reasoning meets Embodied Interaction - 专知论文

会员服务 ·

0

Chain Of Interaction Benchmark (COIN): When Reasoning meets Embodied Interaction

翻译：交互链基准测试（COIN）：当推理遇到具身交互

Xianhao Wang,Xiaojian Ma,Haozhe Hu,Rongpeng Su,Yutian Cheng,Zhou Ziheng,Hangxin Liu,Lei Liu,Bin Li,Qing Li

Generalist embodied agents must perform interactive, causally-dependent reasoning, continually interacting with the environment, acquiring information, and updating plans to solve long-horizon tasks before they could be adopted in real-life scenarios. For instance, retrieving an apple from a cabinet may require opening multiple doors and drawers before the apple becomes visible and reachable, demanding sequential interaction under partial observability. However, existing benchmarks fail to systematically evaluate this essential capability. We introduce COIN, a benchmark designed to assess interactive reasoning in realistic robotic manipulation through three key contributions. First, we construct COIN-50: 50 interactive tasks in daily scenarios, and create COIN-Primitive required by causally-dependent tasks, and COIN-Composition with mid-term complexity for skill learning and generalization evaluation. Second, we develop a low-cost mobile AR teleoperation system and collect the COIN-Primitive Dataset with 50 demonstrations per primitive task (1,000 in total). Third, we develop systematic evaluation metrics about execution stability and generalization robustness to evaluate CodeAsPolicy, VLA, and language-conditioned H-VLA approaches. Our comprehensive evaluation reveals critical limitations in current methods: models struggle with interactive reasoning tasks due to significant gaps between visual understanding and motor execution. We provide fine-grained analysis of these limitations.

翻译：通用型具身智能体必须具备交互式的因果依赖推理能力，即持续与环境互动、获取信息并更新计划，以解决长时序任务，方能应用于现实场景。例如，从柜子中取出苹果可能需要先打开多个门和抽屉，待苹果可见且可触及后方可执行，这要求在部分可观测条件下进行顺序交互。然而，现有基准测试未能系统评估这一关键能力。我们提出COIN基准，通过三项核心贡献评估真实机器人操作中的交互推理能力：第一，构建COIN-50数据集——包含50个日常场景交互任务，同时创建因果依赖任务所需的COIN-Primitive子集，以及用于技能学习与泛化评估的中期复杂度COIN-Composition子集；第二，开发低成本移动AR遥操作采集系统，为每个基础任务收集50组演示数据（共1000组），形成COIN-Primitive数据集；第三，建立关于执行稳定性与泛化鲁棒性的系统评估指标，对CodeAsPolicy、VLA及语言条件化的H-VLA方法进行评测。全面评估揭示了当前方法的根本缺陷：由于视觉理解与运动执行之间存在显著差距，模型在交互推理任务中表现不佳。我们对此进行了细粒度分析。

0

相关内容

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

31+阅读 · 5月6日

具身科学：利用代理型具身人工智能构建闭环科学发现

具身科学：利用代理型具身人工智能构建闭环科学发现

专知会员服务

16+阅读 · 3月24日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

【ICCV2025教程】基础模型遇见具身智能体

【ICCV2025教程】基础模型遇见具身智能体

专知会员服务

16+阅读 · 2025年10月23日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

专知会员服务

64+阅读 · 2024年8月13日

【斯坦福博士论文】具身物体搜索的操作与推理方法

【斯坦福博士论文】具身物体搜索的操作与推理方法

专知会员服务

39+阅读 · 2023年9月13日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

Arxiv

0+阅读 · 4月28日

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Arxiv

0+阅读 · 4月24日

Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

Arxiv

0+阅读 · 4月7日

ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

Arxiv

0+阅读 · 4月1日

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Arxiv

0+阅读 · 3月19日

InterDeepResearch: Enabling Human-Agent Collaborative Information Seeking through Interactive Deep Research

Arxiv

0+阅读 · 3月13日

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

Arxiv

0+阅读 · 2月26日

A Benchmark for Deep Information Synthesis

Arxiv

0+阅读 · 2月24日

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Arxiv

0+阅读 · 2月24日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

31+阅读 · 5月6日

具身科学：利用代理型具身人工智能构建闭环科学发现

具身科学：利用代理型具身人工智能构建闭环科学发现

专知会员服务

16+阅读 · 3月24日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

【ICCV2025教程】基础模型遇见具身智能体

【ICCV2025教程】基础模型遇见具身智能体

专知会员服务

16+阅读 · 2025年10月23日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

2024年中国具身智能行业研究：知行合一，拥抱AI新范式

专知会员服务

64+阅读 · 2024年8月13日

【斯坦福博士论文】具身物体搜索的操作与推理方法

【斯坦福博士论文】具身物体搜索的操作与推理方法

专知会员服务

39+阅读 · 2023年9月13日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

Arxiv

0+阅读 · 4月28日

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Arxiv

0+阅读 · 4月24日

Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

Arxiv

0+阅读 · 4月7日

ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

Arxiv

0+阅读 · 4月1日

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Arxiv

0+阅读 · 3月19日

InterDeepResearch: Enabling Human-Agent Collaborative Information Seeking through Interactive Deep Research

Arxiv

0+阅读 · 3月13日

InCoM: Intent-Driven Perception and Structured Coordination for Whole-Body Mobile Manipulation

Arxiv

0+阅读 · 2月26日

A Benchmark for Deep Information Synthesis

Arxiv

0+阅读 · 2月24日

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Arxiv

0+阅读 · 2月24日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员