Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning - 专知论文

会员服务 ·

0

提取 · 协同 · 强化学习 · 语言模型 · 系统 ·

Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning

翻译：面向指令跟随任务的自主引导式计划提取：基于目标条件强化学习

Zoya Volovikova,Nikita Sorokin,Dmitriy Lukashevskiy,Aleksandr Panov,Alexey Skrynnik

We introduce SuperIgor, a framework for instruction-following tasks. Unlike prior methods that rely on predefined subtasks, SuperIgor enables a language model to generate and refine high-level plans through a self-learning mechanism, reducing the need for manual dataset annotation. Our approach involves iterative co-training: an RL agent is trained to follow the generated plans, while the language model adapts and modifies these plans based on RL feedback and preferences. This creates a feedback loop where both the agent and the planner improve jointly. We validate our framework in environments with rich dynamics and stochasticity. Results show that SuperIgor agents adhere to instructions more strictly than baseline methods, while also demonstrating strong generalization to previously unseen instructions.

翻译：我们提出SuperIgor框架，一种面向指令跟随任务的系统方案。与依赖预定义子任务的现有方法不同，SuperIgor通过自学习机制使语言模型能够生成并优化高层计划，从而减少人工数据集标注需求。本方法采用迭代协同训练策略：强化学习代理学习执行生成的计划，而语言模型则根据强化学习反馈与偏好动态调整优化计划。这种双向反馈机制使代理与规划器能够协同进化。我们在具有丰富动态特性和随机性的环境中验证了该框架。实验结果表明，SuperIgor代理相比基线方法能更严格遵循指令，同时展现出对未见指令的强泛化能力。

0

相关内容

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

17+阅读 · 6月3日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

35+阅读 · 2023年12月2日

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

专知会员服务

27+阅读 · 2023年10月28日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

专知

78+阅读 · 2018年8月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution

Arxiv

0+阅读 · 5月1日

Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

Arxiv

0+阅读 · 4月29日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Arxiv

0+阅读 · 4月11日

Decentralized Task Scheduling in Distributed Systems: A Deep Reinforcement Learning Approach

Arxiv

0+阅读 · 3月25日

Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning

Arxiv

0+阅读 · 3月25日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Arxiv

0+阅读 · 3月18日

Task-oriented grasping for dexterous robots using postural synergies and reinforcement learning

Arxiv

0+阅读 · 2月24日

Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

17+阅读 · 6月3日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

57+阅读 · 2024年8月3日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

35+阅读 · 2023年12月2日

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

【法国里尔大学博士论文】面向目标的强化学习探索，324页pdf

专知会员服务

27+阅读 · 2023年10月28日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

专知

78+阅读 · 2018年8月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution

Arxiv

0+阅读 · 5月1日

Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

Arxiv

0+阅读 · 4月29日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Arxiv

0+阅读 · 4月11日

Decentralized Task Scheduling in Distributed Systems: A Deep Reinforcement Learning Approach

Arxiv

0+阅读 · 3月25日

Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning

Arxiv

0+阅读 · 3月25日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Arxiv

0+阅读 · 3月18日

Task-oriented grasping for dexterous robots using postural synergies and reinforcement learning

Arxiv

0+阅读 · 2月24日

Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

Arxiv

0+阅读 · 2月20日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员