学习操纵万物：揭示边界框引导策略中的数据缩放定律 (Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies) - 专知论文

会员服务 ·

0

边界框 · 缩放 · 泛化 · Scaling Law · 泛化能力 ·

Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies

翻译：学习操纵万物：揭示边界框引导策略中的数据缩放定律

Yihao Wu,Jinming Ma,Junbo Tan,Yanzhao Yu,Shoujie Li,Mingliang Zhou,Diyun Xiang,Xueqian Wang

Diffusion-based policies show limited generalization in semantic manipulation, posing a key obstacle to the deployment of real-world robots. This limitation arises because relying solely on text instructions is inadequate to direct the policy's attention toward the target object in complex and dynamic environments. To solve this problem, we propose leveraging bounding-box instruction to directly specify target object, and further investigate whether data scaling laws exist in semantic manipulation tasks. Specifically, we design a handheld segmentation device with an automated annotation pipeline, Label-UMI, which enables the efficient collection of demonstration data with semantic labels. We further propose a semantic-motion-decoupled framework that integrates object detection and bounding-box guided diffusion policy to improve generalization and adaptability in semantic manipulation. Throughout extensive real-world experiments on large-scale datasets, we validate the effectiveness of the approach, and reveal a power-law relationship between generalization performance and the number of bounding-box objects. Finally, we summarize an effective data collection strategy for semantic manipulation, which can achieve 85\% success rates across four tasks on both seen and unseen objects. All datasets and code will be released to the community.

翻译：基于扩散的策略在语义操纵任务中表现出有限的泛化能力，这成为现实世界机器人部署的关键障碍。该局限性源于仅依赖文本指令不足以在复杂动态环境中引导策略关注目标对象。为解决此问题，我们提出利用边界框指令直接指定目标对象，并深入探究语义操纵任务中是否存在数据缩放定律。具体而言，我们设计了一款配备自动标注流程Label-UMI的手持式分割设备，能够高效收集带有语义标签的演示数据。我们进一步提出语义-运动解耦框架，该框架整合了目标检测与边界框引导的扩散策略，以提升语义操纵的泛化能力与适应性。通过对大规模数据集进行广泛的实际实验，我们验证了该方法的有效性，并揭示了泛化性能与边界框对象数量之间的幂律关系。最后，我们总结出一套高效的语义操纵数据收集策略，该策略在已见与未见对象的四项任务中均可实现85%的成功率。所有数据集与代码将向社区开源。

0

相关内容

边界框

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

21+阅读 · 1月18日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

39+阅读 · 2025年12月28日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

14+阅读 · 2025年5月23日

《时空变化领域中的学习与决策》134页

《时空变化领域中的学习与决策》134页

专知会员服务

16+阅读 · 2025年5月10日

【NYU博士论文】面向开放世界的人工智能：学习原则

【NYU博士论文】面向开放世界的人工智能：学习原则

专知会员服务

43+阅读 · 2025年4月26日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

专知会员服务

48+阅读 · 2024年1月7日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning

Arxiv

0+阅读 · 2月16日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation

Arxiv

0+阅读 · 2月15日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月12日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月11日

Scaling Towards the Information Boundary of Instruction Sets: The Infinity Instruct Subject Technical Report

Arxiv

0+阅读 · 2月11日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation

Arxiv

0+阅读 · 2月6日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月26日

VIP会员

文章信息

相关主题

相关VIP内容

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

21+阅读 · 1月18日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

39+阅读 · 2025年12月28日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

14+阅读 · 2025年5月23日

《时空变化领域中的学习与决策》134页

《时空变化领域中的学习与决策》134页

专知会员服务

16+阅读 · 2025年5月10日

【NYU博士论文】面向开放世界的人工智能：学习原则

【NYU博士论文】面向开放世界的人工智能：学习原则

专知会员服务

43+阅读 · 2025年4月26日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

专知会员服务

48+阅读 · 2024年1月7日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning

Arxiv

0+阅读 · 2月16日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

RoboAug: One Annotation to Hundreds of Scenes via Region-Contrastive Data Augmentation for Robotic Manipulation

Arxiv

0+阅读 · 2月15日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月12日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月11日

Scaling Towards the Information Boundary of Instruction Sets: The Infinity Instruct Subject Technical Report

Arxiv

0+阅读 · 2月11日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation

Arxiv

0+阅读 · 2月6日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月26日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员