LatentGym: A Testbed For Cross-Task Experiential Learning With Controllable Latent Structure - 专知论文

会员服务 ·

0

结构 · 潜在 · 可控 · 智能体 · 交互 ·

LatentGym: A Testbed For Cross-Task Experiential Learning With Controllable Latent Structure

翻译：LatentGym：具有可控潜在结构的跨任务体验学习测试平台

Daksh Mittal,Tommaso Castellani,Thomson Yen,Naimeng Ye,Fangyu Wu,Minghui Chen,Tiffany Cai,Emmanouil Koukoumidis,William Zeng,Hongseok Namkoong

from arxiv, 61 pages

We envision continually learning agentic systems that become more useful over time: as they encounter sequences of related tasks, they should infer the hidden structure shared across those tasks and use it to improve future decisions. This cross-task experiential learning capability is pivotal in domains such as personalization and interactive assistance, but existing training/evaluation frameworks do not provide shared, controllable latent structures and cannot measure whether or why agents improve. We introduce LatentGym: a controllable suite in which each environment is organized around a ground-truth latent variable governing the structure across tasks. Our construction yields metrics that separate exploration (whether the agent's actions gather information about the latent) from exploitation (whether the agent uses what it has gathered). We demonstrate our suite on empirical studies addressing three questions: how and why frontier models fail to adapt across related tasks; whether post-training on related task sequences improves general cross-task adaptation, and where those gains come from; and how design choices such as inter-task feedback shape training dynamics and generalization. Together, these results establish a controlled foundation for studying how LLM agents learn from experience across tasks, and for designing agents that adapt more reliably in sequential, personalized, and interactive settings.

翻译：我们设想持续学习的智能体系统能够随时间推移变得更有用：当它们遇到一系列相关任务时，应能推断这些任务间共享的隐藏结构，并利用该结构改进未来决策。这种跨任务体验学习能力在个性化与交互式辅助等领域至关重要，但现有训练/评估框架既不提供共享的可控潜在结构，也无法测量智能体是否改进及其原因。我们提出LatentGym：一个可控的套件，其中每个环境均围绕控制跨任务结构的真实潜在变量构建。我们的构造产生了能够区分探索（智能体行为是否收集关于潜在变量的信息）与利用（智能体是否利用已收集信息）的指标。我们通过实证研究展示了该套件的应用，回答了三方面问题：前沿模型如何及为何未能适应相关任务；跨相关任务序列的后训练是否改善一般跨任务适应性及其改进来源；以及任务间反馈等设计选择如何影响训练动态与泛化能力。这些结果共同为研究LLM智能体如何从跨任务经验中学习、以及设计在顺序、个性化与交互式场景中更可靠适应的智能体奠定了受控基础。

0

相关内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

15+阅读 · 5月13日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

18+阅读 · 3月14日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

专知会员服务

93+阅读 · 2023年2月3日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

139+阅读 · 2022年11月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

不可错过！Pisa大学最新《持续学习》课程，带你学习最新深度架构持续学习进展

不可错过！Pisa大学最新《持续学习》课程，带你学习最新深度架构持续学习进展

专知会员服务

29+阅读 · 2021年12月16日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Dimensionality Controls When Modularity Helps in Continual Learning

Arxiv

0+阅读 · 6月16日

PLATE: Plasticity-Tunable Efficient Adapters for Geometry-Aware Continual Learning

Arxiv

0+阅读 · 6月15日

LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

Arxiv

0+阅读 · 6月15日

RollArt: Disaggregated Multi-Task Agentic RL Training at Scale

Arxiv

0+阅读 · 6月15日

Edu-Theater: A Data-Efficient Agent Framework for Scalable Learner Behavior Simulation through Staging Roll-Call

Arxiv

0+阅读 · 6月13日

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Arxiv

0+阅读 · 6月12日

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

Arxiv

0+阅读 · 6月11日

ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

Arxiv

0+阅读 · 6月8日

MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Arxiv

0+阅读 · 6月4日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

15+阅读 · 5月13日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

18+阅读 · 3月14日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

专知会员服务

93+阅读 · 2023年2月3日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

139+阅读 · 2022年11月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

不可错过！Pisa大学最新《持续学习》课程，带你学习最新深度架构持续学习进展

不可错过！Pisa大学最新《持续学习》课程，带你学习最新深度架构持续学习进展

专知会员服务

29+阅读 · 2021年12月16日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

相关论文

Dimensionality Controls When Modularity Helps in Continual Learning

Arxiv

0+阅读 · 6月16日

PLATE: Plasticity-Tunable Efficient Adapters for Geometry-Aware Continual Learning

Arxiv

0+阅读 · 6月15日

LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

Arxiv

0+阅读 · 6月15日

RollArt: Disaggregated Multi-Task Agentic RL Training at Scale

Arxiv

0+阅读 · 6月15日

Edu-Theater: A Data-Efficient Agent Framework for Scalable Learner Behavior Simulation through Staging Roll-Call

Arxiv

0+阅读 · 6月13日

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Arxiv

0+阅读 · 6月12日

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

Arxiv

0+阅读 · 6月11日

ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

Arxiv

0+阅读 · 6月8日

MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Arxiv

0+阅读 · 6月4日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员