Large Language Models (LLMs) have shown strong promise for robotic task planning, particularly through the automatic generation of symbolic planning domains. However, prior work mainly treats generated domains as planning utilities. Such pipelines remain brittle under imperfect logical states and perception noise, while overlooking the potential of generated domains as scalable sources of reasoning supervision and structured reward signals. At the same time, reasoning LLMs depend on chain-of-thought (CoT) supervision, which is expensive to collect for robotic tasks, and reinforcement learning (RL) faces challenges in reward engineering. We propose Self-CriTeach, an LLM self-teaching and self-critiquing framework in which an LLM autonomously generates symbolic planning domains that serve a dual role: (1) In the self-teaching stage, generated domains are used to produce large-scale robotic planning problem--plan pairs, which are automatically converted into extended CoT trajectories for supervised fine-tuning. (2) In the self-critiquing stage, the same domains are reused as structured reward functions, providing dense feedback for reinforcement learning without manual reward engineering. This unified training pipeline yields a planning-enhanced LLM with higher planning success rates, stronger cross-task generalization, reduced inference cost, and improved resistance to imperfect logical states. GitHub Page: https://markli1hoshipu.github.io/Plan_LLM/


翻译:[translated abstract in Chinese] 大语言模型(LLMs)在机器人任务规划领域展现出巨大潜力,尤其是通过自动生成符号化规划领域。然而,现有工作主要将生成领域视为规划工具。此类流程在不完善的逻辑状态和感知噪声下仍显脆弱,同时忽略了生成领域作为可扩展推理监督与结构化奖励信号的潜力。此外,推理型LLM依赖于思维链(CoT)监督,而此类监督在机器人任务中采集成本高昂;强化学习(RL)则在奖励工程方面面临挑战。我们提出Self-CriTeach框架——一种LLM自我教学与自我批判框架,其中LLM自主生成符号化规划领域,实现双重作用:(1)自我教学阶段:利用生成领域产生大规模机器人规划问题-规划对,并自动转化为扩展CoT轨迹用于监督微调。(2)自我批判阶段:复用相同领域作为结构化奖励函数,为RL提供密集反馈,无需人工奖励工程。这一统一训练流程可得到规划增强型LLM,其规划成功率更高、跨任务泛化能力更强、推理成本更低,且对不完善逻辑状态的抵抗能力提升。GitHub页面:https://markli1hoshipu.github.io/Plan_LLM/

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
34+阅读 · 2025年5月18日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
32+阅读 · 2024年9月26日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员