Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation - 专知论文

会员服务 ·

0

语言模型 · 监督 · 结构 · 结构化 · 机器人 ·

Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation

翻译：Self-CriTeach：通过自动领域生成改进机器人规划的大语言模型自教自学与自评框架

Jinbang Huang,Zhiyuan Li,Yuanzhao Hu,Zhanguang Zhang,Mark Coates,Xingyue Quan,Yingxue Zhang

from arxiv, 31 pages, 6 figures

Large Language Models (LLMs) have recently shown strong promise for robotic task planning, particularly through automatic planning domain generation. Planning domains are brittle under imperfect logical states and perception noise; prior approaches largely treat generated planning domains as plan utilities, overlooking their potential as scalable sources of reasoning supervision and structured reward signals. At the same time, reasoning LLMs depend on chain-of-thought (CoT) supervision that is expensive to collect for robotic tasks, and reinforcement learning (RL) faces challenges in reward engineering. We propose Self-CriTeach, an LLM self-teaching and self-critiquing framework in which an LLM autonomously generates symbolic planning domains that serve a dual role: (i) enabling large-scale generation of robotic planning problem-plan pairs, and (ii) providing structured reward functions. First, the self-written domains enable large-scale generation of symbolic task plans, which are automatically transformed into extended CoT trajectories for supervised fine-tuning. Second, the self-written domains are reused as structured reward functions, providing dense feedback for reinforcement learning without manual reward engineering. This unified training pipeline yields a planning-enhanced LLM with higher planning success rates, stronger cross-task generalization, reduced inference cost, and improved robustness to imperfect logical states.

翻译：大语言模型（LLMs）近期在机器人任务规划方面展现出巨大潜力，特别是在自动规划领域生成方面。规划领域在不完善的逻辑状态和感知噪声下具有脆弱性；先前的研究大多将生成的规划领域视为规划工具，忽视了其作为可扩展推理监督源和结构化奖励信号的潜力。与此同时，推理型大语言模型依赖于思维链（CoT）监督，而这类监督数据在机器人任务中收集成本高昂，且强化学习（RL）在奖励工程方面面临挑战。我们提出Self-CriTeach框架，这是一种大语言模型自教自学与自评的机制，其中大语言模型自主生成符号化规划领域，该领域发挥双重作用：（i）支持大规模生成机器人规划问题-方案对，（ii）提供结构化奖励函数。首先，自主编写的规划领域能够大规模生成符号化任务规划，这些规划可自动转化为扩展的思维链轨迹，用于监督微调。其次，自主编写的规划领域被复用为结构化奖励函数，无需人工设计奖励即可为强化学习提供密集反馈。这一统一的训练流程最终产生一个规划能力增强的大语言模型，其规划成功率更高、跨任务泛化能力更强、推理成本更低，且对不完善逻辑状态的鲁棒性得到提升。

0

相关内容

语言模型

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

专知会员服务

29+阅读 · 2025年9月2日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Arxiv

0+阅读 · 3月9日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

Arxiv

0+阅读 · 2月26日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

Agentic Adversarial QA for Improving Domain-Specific LLMs

Arxiv

0+阅读 · 2月20日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

8+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

4+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

4+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

4+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

4+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

5+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

4+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

14+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

专知会员服务

29+阅读 · 2025年9月2日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

相关论文

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Arxiv

0+阅读 · 3月9日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

Arxiv

0+阅读 · 2月26日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月23日

Agentic Adversarial QA for Improving Domain-Specific LLMs

Arxiv

0+阅读 · 2月20日

Buy versus Build an LLM: A Decision Framework for Governments

Arxiv

0+阅读 · 2月13日

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Arxiv

0+阅读 · 2月10日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 1月30日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员