QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents - 专知论文

会员服务 ·

0

偏好学习 · 模态 · 基线 · 奖励学习 · 贝叶斯 ·

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

翻译：QuickLAP: 面向半自主代理的快速语言-行为偏好学习

Jordan Abi Nader,David Lee,Nathaniel Dennler,Andreea Bobu

Robots must learn from both what people do and what they say, but either modality alone is often incomplete: physical corrections are grounded but ambiguous in intent, while language expresses high-level goals but lacks physical grounding. We introduce QuickLAP: Quick Language-Action Preference learning, a Bayesian framework that fuses physical and language feedback to infer reward functions in real time. Our key insight is to treat language as a probabilistic observation over the user's latent preferences, clarifying which reward features matter and how physical corrections should be interpreted. QuickLAP uses Large Language Models (LLMs) to extract reward feature attention masks and preference shifts from free-form utterances, which it integrates with physical feedback in a closed-form update rule. This enables fast, real-time, and robust reward learning that handles ambiguous feedback. In a semi-autonomous driving simulator, QuickLAP reduces reward learning error by over 70% compared to physical-only and heuristic multimodal baselines. A 15-participant user study further validates our approach: participants found QuickLAP significantly more understandable and collaborative, and preferred its learned behavior over baselines. Code is available at https://github.com/MIT-CLEAR-Lab/QuickLAP.

翻译：机器人必须同时从人们的行为和语言中学习，但单一模态往往存在不足：物理纠正确有实际依据但意图模糊，而语言虽能表达高层次目标却缺乏物理基础。我们提出QuickLAP（快速语言-行为偏好学习）——一种贝叶斯框架，通过融合物理反馈和语言反馈实时推断奖励函数。其核心见解在于将语言视为对用户潜在偏好的概率观测，从而阐明哪些奖励特征至关重要以及物理纠正应如何被解读。QuickLAP利用大语言模型从自由形式的话语中提取奖励特征注意力掩码和偏好偏移，并通过闭式更新规则将其与物理反馈整合。这实现了快速、实时且鲁棒的奖励学习，能够处理模糊反馈。在半自主驾驶模拟器中，QuickLAP相较于纯物理及启发式多模态基线方法，将奖励学习误差降低超过70%。一项包含15名参与者的用户研究进一步验证了该方法的有效性：参与者认为QuickLAP更易理解且更具协作性，并更偏好其学习到的行为而非基线方法。代码已开源：https://github.com/MIT-CLEAR-Lab/QuickLAP

0

相关内容

偏好学习

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

28+阅读 · 2022年3月11日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

深度神经网络中的快捷学习，Shortcut Learning in Deep Neural Networks

深度神经网络中的快捷学习，Shortcut Learning in Deep Neural Networks

专知会员服务

22+阅读 · 2020年4月21日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

LOPAL: Local Performance-Aware Active Learning from Imperfect Demonstrations

Arxiv

0+阅读 · 6月15日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

Low-Burden LLM-Based Preference Learning: Personalizing Assistive Robots from Natural Language Feedback for Users with Paralysis

Arxiv

0+阅读 · 6月12日

ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation

Arxiv

0+阅读 · 6月12日

Vision-Language-Action Jump-Starting for Reinforcement Learning Robotic Agents

Arxiv

0+阅读 · 6月9日

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Arxiv

0+阅读 · 6月6日

Curiosity-Driven Development of Action and Language in Robots Through Self-Exploration

Arxiv

0+阅读 · 6月3日

FastSLM: Hierarchical Temporal Abstraction for Efficient Long-Form Speech Adaptation

Arxiv

0+阅读 · 6月1日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

【慕尼黑大学博士论文】基于预训练语言模型的高效迁移学习，145页pdf

专知会员服务

35+阅读 · 2023年9月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

28+阅读 · 2022年3月11日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

深度神经网络中的快捷学习，Shortcut Learning in Deep Neural Networks

深度神经网络中的快捷学习，Shortcut Learning in Deep Neural Networks

专知会员服务

22+阅读 · 2020年4月21日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

LOPAL: Local Performance-Aware Active Learning from Imperfect Demonstrations

Arxiv

0+阅读 · 6月15日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

Low-Burden LLM-Based Preference Learning: Personalizing Assistive Robots from Natural Language Feedback for Users with Paralysis

Arxiv

0+阅读 · 6月12日

ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation

Arxiv

0+阅读 · 6月12日

Vision-Language-Action Jump-Starting for Reinforcement Learning Robotic Agents

Arxiv

0+阅读 · 6月9日

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Arxiv

0+阅读 · 6月6日

Curiosity-Driven Development of Action and Language in Robots Through Self-Exploration

Arxiv

0+阅读 · 6月3日

FastSLM: Hierarchical Temporal Abstraction for Efficient Long-Form Speech Adaptation

Arxiv

0+阅读 · 6月1日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月12日

相关基金

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员