如何用刀削皮：将精细操作与人类偏好对齐 (How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference) - 专知论文

会员服务 ·

0

操作 · 产品 · 精细操作 · 定量 · 泛化 ·

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

翻译：如何用刀削皮：将精细操作与人类偏好对齐

Toru Lin,Shuying Deng,Zhao-Heng Yin,Pieter Abbeel,Jitendra Malik

from arxiv, Project page can be found at https://toruowo.github.io/peel

Many essential manipulation tasks - such as food preparation, surgery, and craftsmanship - remain intractable for autonomous robots. These tasks are characterized not only by contact-rich, force-sensitive dynamics, but also by their "implicit" success criteria: unlike pick-and-place, task quality in these domains is continuous and subjective (e.g. how well a potato is peeled), making quantitative evaluation and reward engineering difficult. We present a learning framework for such tasks, using peeling with a knife as a representative example. Our approach follows a two-stage pipeline: first, we learn a robust initial policy via force-aware data collection and imitation learning, enabling generalization across object variations; second, we refine the policy through preference-based finetuning using a learned reward model that combines quantitative task metrics with qualitative human feedback, aligning policy behavior with human notions of task quality. Using only 50-200 peeling trajectories, our system achieves over 90% average success rates on challenging produce including cucumbers, apples, and potatoes, with performance improving by up to 40% through preference-based finetuning. Remarkably, policies trained on a single produce category exhibit strong zero-shot generalization to unseen in-category instances and to out-of-distribution produce from different categories while maintaining over 90% success rates.

翻译：许多关键的操作任务——例如食品制备、外科手术和手工艺品制作——对于自主机器人而言仍然难以实现。这些任务不仅具有接触密集、力敏感的动态特性，其成功标准也具有“隐含性”：与抓放任务不同，这些领域的任务质量是连续且主观的（例如土豆削皮的质量），这使得定量评估和奖励函数设计变得困难。我们提出一个针对此类任务的学习框架，以用刀削皮作为代表性示例。我们的方法采用两阶段流程：首先，通过力感知数据收集和模仿学习，我们学习一个鲁棒的初始策略，使其能够泛化到不同的物体变体；其次，我们通过基于偏好的微调来优化策略，该过程使用一个结合了定量任务指标与定性人类反馈的奖励模型，从而使策略行为与人类对任务质量的理解保持一致。仅使用50-200条削皮轨迹，我们的系统在包括黄瓜、苹果和土豆在内的具有挑战性的农产品上实现了超过90%的平均成功率，并且通过基于偏好的微调，性能提升了高达40%。值得注意的是，在单一农产品类别上训练的策略，对未见过的同类实例以及来自不同类别的分布外农产品，都表现出强大的零样本泛化能力，同时保持超过90%的成功率。

0

相关内容

【伯克利博士论文】通过真实世界实践赋能机器人自主性

【伯克利博士论文】通过真实世界实践赋能机器人自主性

专知会员服务

15+阅读 · 2025年8月6日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

专知会员服务

44+阅读 · 2024年4月2日

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

专知会员服务

41+阅读 · 2023年11月4日

机器人如何用机器学习？斯威本科大等《机器学习遇上机器人操控》综述

机器人如何用机器学习？斯威本科大等《机器学习遇上机器人操控》综述

专知会员服务

48+阅读 · 2023年9月27日

【伯克利博士论文】将机器人的表征与人类对齐

【伯克利博士论文】将机器人的表征与人类对齐

专知会员服务

46+阅读 · 2023年8月27日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知会员服务

16+阅读 · 2022年6月4日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

机器人操作的“圣杯问题” -- Bin Picking

机器人操作的“圣杯问题” -- Bin Picking

机器人学家

16+阅读 · 2018年8月2日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超精密飞刀铣削刀具磨损及工件表面特征创成的在线评估新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螳螂前足砍切机理的仿生圆盘切割刀具优化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

周期性手工装配作业肌肉疲劳预测建模与其装配质量改善

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Concurrent Prehensile and Nonprehensile Manipulation: A Practical Approach to Multi-Stage Dexterous Tasks

Arxiv

0+阅读 · 3月12日

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

Learning to unfold cloth: Scaling up world models to deformable object manipulation

Learning to unfold cloth: Scaling up world models to deformable object manipulation

Arxiv

0+阅读 · 2月18日

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos

Arxiv

0+阅读 · 2月13日

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

Arxiv

0+阅读 · 2月12日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

Learning Force-Regulated Manipulation with a Low-Cost Tactile-Force-Controlled Gripper

Arxiv

0+阅读 · 2月10日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Humanoid Manipulation Interface: Humanoid Whole-Body Manipulation from Robot-Free Demonstrations

Arxiv

0+阅读 · 2月6日

Do Robots Really Need Anthropomorphic Hands? -- A Comparison of Human and Robotic Hands

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

0+阅读 · 今天12:23

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

0+阅读 · 今天12:21

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

0+阅读 · 今天12:13

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

7+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

2+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

5+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

6+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

3+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

4+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

13+阅读 · 今天1:51

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

8+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

5+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

3+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

5+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

5+阅读 · 4月15日

相关VIP内容

【伯克利博士论文】通过真实世界实践赋能机器人自主性

【伯克利博士论文】通过真实世界实践赋能机器人自主性

专知会员服务

15+阅读 · 2025年8月6日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

专知会员服务

44+阅读 · 2024年4月2日

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

专知会员服务

41+阅读 · 2023年11月4日

机器人如何用机器学习？斯威本科大等《机器学习遇上机器人操控》综述

机器人如何用机器学习？斯威本科大等《机器学习遇上机器人操控》综述

专知会员服务

48+阅读 · 2023年9月27日

【伯克利博士论文】将机器人的表征与人类对齐

【伯克利博士论文】将机器人的表征与人类对齐

专知会员服务

46+阅读 · 2023年8月27日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知会员服务

16+阅读 · 2022年6月4日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

《基于强化学习的反无人机蜂群拦截优先级排序》

【CMU博士论文】迈向可解释机器学习的理论基础

无人机视觉语言导航：研究进展、挑战与技术路线图

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

机器人操作的“圣杯问题” -- Bin Picking

机器人操作的“圣杯问题” -- Bin Picking

机器人学家

16+阅读 · 2018年8月2日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Concurrent Prehensile and Nonprehensile Manipulation: A Practical Approach to Multi-Stage Dexterous Tasks

Arxiv

0+阅读 · 3月12日

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Arxiv

0+阅读 · 2月18日

Learning to unfold cloth: Scaling up world models to deformable object manipulation

Learning to unfold cloth: Scaling up world models to deformable object manipulation

Arxiv

0+阅读 · 2月18日

Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos

Arxiv

0+阅读 · 2月13日

Vi-TacMan: Articulated Object Manipulation via Vision and Touch

Arxiv

0+阅读 · 2月12日

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos

Arxiv

0+阅读 · 2月10日

Learning Force-Regulated Manipulation with a Low-Cost Tactile-Force-Controlled Gripper

Arxiv

0+阅读 · 2月10日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Humanoid Manipulation Interface: Humanoid Whole-Body Manipulation from Robot-Free Demonstrations

Arxiv

0+阅读 · 2月6日

Do Robots Really Need Anthropomorphic Hands? -- A Comparison of Human and Robotic Hands

Arxiv

0+阅读 · 2月5日

相关基金

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超精密飞刀铣削刀具磨损及工件表面特征创成的在线评估新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螳螂前足砍切机理的仿生圆盘切割刀具优化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

周期性手工装配作业肌肉疲劳预测建模与其装配质量改善

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员