面向具身智能体训练的自适应环境生成 (Towards Adaptive Environment Generation for Training Embodied Agents) - 专知论文

会员服务 ·

0

自适应 · 具身智能体 · 智能体 · 泛化 · 生成方法 ·

Towards Adaptive Environment Generation for Training Embodied Agents

翻译：面向具身智能体训练的自适应环境生成

Teresa Yeo,Dulaj Weerakoon,Dulanga Weerakoon,Archan Misra

from arxiv, Accepted to AAAI-26 Bridge Program B10: Making Embodied AI Reliable with Testing and Formal Verification

Embodied agents struggle to generalize to new environments, even when those environments share similar underlying structures to their training settings. Most current approaches to generating these training environments follow an open-loop paradigm, without considering the agent's current performance. While procedural generation methods can produce diverse scenes, diversity without feedback from the agent is inefficient. The generated environments may be trivially easy, providing limited learning signal. To address this, we present a proof-of-concept for closed-loop environment generation that adapts difficulty to the agent's current capabilities. Our system employs a controllable environment representation, extracts fine-grained performance feedback beyond binary success or failure, and implements a closed-loop adaptation mechanism that translates this feedback into environment modifications. This feedback-driven approach generates training environments that more challenging in the ways the agent needs to improve, enabling more efficient learning and better generalization to novel settings.

翻译：具身智能体难以泛化到新环境，即使这些环境与其训练场景具有相似的基础结构。当前大多数生成训练环境的方法遵循开环范式，未考虑智能体当前性能。尽管程序化生成方法能创造多样化场景，但缺乏智能体反馈的多样性生成是低效的。生成的环境可能过于简单，仅能提供有限的学习信号。为此，我们提出一种概念验证的闭环环境生成方法，可根据智能体当前能力自适应调整难度。该系统采用可控环境表征，提取超越二元成功/失败的细粒度性能反馈，并实现将反馈转化为环境修改的闭环适应机制。这种反馈驱动的方法能生成更具挑战性的训练环境——其挑战性恰好针对智能体需要改进的方面，从而实现更高效的学习和更好的新场景泛化能力。

0

相关内容

自适应

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

20+阅读 · 2月11日

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

专知会员服务

16+阅读 · 1月15日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

22+阅读 · 2025年12月11日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

《大语言模型辅助生成军事训练场景》

《大语言模型辅助生成军事训练场景》

专知会员服务

38+阅读 · 2025年11月13日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

25+阅读 · 2025年3月20日

具身人工智能中的生成式多智能体协作：系统性综述

具身人工智能中的生成式多智能体协作：系统性综述

专知会员服务

53+阅读 · 2025年2月22日

《利用深度强化学习实现作战训练场景自动生成》

《利用深度强化学习实现作战训练场景自动生成》

专知会员服务

38+阅读 · 2025年1月14日

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

专知会员服务

38+阅读 · 2022年3月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Arxiv

0+阅读 · 2月11日

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Arxiv

0+阅读 · 2月10日

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Arxiv

0+阅读 · 2月6日

AgentSpawn: Adaptive Multi-Agent Collaboration Through Dynamic Spawning for Long-Horizon Code Generation

Arxiv

0+阅读 · 2月5日

Coding Agents with Environment Interaction: A Theoretical Perspective

Arxiv

0+阅读 · 2月5日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Arxiv

0+阅读 · 1月30日

LogicEnvGen: Task-Logic Driven Generation of Diverse Simulated Environments for Embodied AI

Arxiv

0+阅读 · 1月20日

Generative AI Agents for Controllable and Protected Content Creation

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

具身智能体

相关VIP内容

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

20+阅读 · 2月11日

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

专知会员服务

16+阅读 · 1月15日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

22+阅读 · 2025年12月11日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

《大语言模型辅助生成军事训练场景》

《大语言模型辅助生成军事训练场景》

专知会员服务

38+阅读 · 2025年11月13日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

25+阅读 · 2025年3月20日

具身人工智能中的生成式多智能体协作：系统性综述

具身人工智能中的生成式多智能体协作：系统性综述

专知会员服务

53+阅读 · 2025年2月22日

《利用深度强化学习实现作战训练场景自动生成》

《利用深度强化学习实现作战训练场景自动生成》

专知会员服务

38+阅读 · 2025年1月14日

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

专知会员服务

38+阅读 · 2022年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

相关论文

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Arxiv

0+阅读 · 2月11日

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Arxiv

0+阅读 · 2月10日

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Arxiv

0+阅读 · 2月6日

AgentSpawn: Adaptive Multi-Agent Collaboration Through Dynamic Spawning for Long-Horizon Code Generation

Arxiv

0+阅读 · 2月5日

Coding Agents with Environment Interaction: A Theoretical Perspective

Arxiv

0+阅读 · 2月5日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Arxiv

0+阅读 · 1月30日

LogicEnvGen: Task-Logic Driven Generation of Diverse Simulated Environments for Embodied AI

Arxiv

0+阅读 · 1月20日

Generative AI Agents for Controllable and Protected Content Creation

Arxiv

0+阅读 · 1月18日

相关基金

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员