OpenTinker：智能体强化学习中的关注点分离 (OpenTinker: Separating Concerns in Agentic Reinforcement Learning) - 专知论文

会员服务 ·

0

智能体 · 强化学习 · 交互 · 设计 · 构建 ·

OpenTinker: Separating Concerns in Agentic Reinforcement Learning

翻译：OpenTinker：智能体强化学习中的关注点分离

Siqi Zhu,Jiaxuan You

We introduce OpenTinker, an infrastructure for reinforcement learning (RL) of large language model (LLM) agents built around a separation of concerns across algorithm design, execution, and agent-environment interaction. Rather than relying on monolithic, end-to-end RL pipelines, OpenTinker decomposes agentic learning systems into lightweight, composable components with clearly defined abstraction boundaries. Users specify agents, environments, and interaction protocols, while inference and training are delegated to a managed execution runtime. OpenTinker introduces a centralized scheduler for managing training and inference workloads, including LoRA-based and full-parameter RL, supervised fine-tuning, and inference, over shared resources. We further discuss design principles for extending OpenTinker to multi-agent training. Finally, we present a set of RL use cases that demonstrate the effectiveness of the framework in practical agentic learning scenarios.

翻译：本文介绍OpenTinker，这是一个围绕算法设计、执行以及智能体-环境交互的关注点分离而构建的大型语言模型智能体强化学习基础设施。与依赖单一、端到端的强化学习流水线不同，OpenTinker将智能体学习系统分解为具有明确定义抽象边界的轻量级、可组合组件。用户指定智能体、环境和交互协议，而推理和训练任务则委托给一个托管执行运行时。OpenTinker引入了一个集中式调度器，用于在共享资源上管理训练和推理工作负载，包括基于LoRA和全参数的强化学习、监督微调以及推理。我们进一步讨论了将OpenTinker扩展到多智能体训练的设计原则。最后，我们展示了一系列强化学习用例，以证明该框架在实际智能体学习场景中的有效性。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

30+阅读 · 2025年12月31日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

49+阅读 · 2023年12月20日

重磅！新书《多智能体强化学习：基础与现代方法》最新版，爱丁堡Stefano博士编著，320页pdf

重磅！新书《多智能体强化学习：基础与现代方法》最新版，爱丁堡Stefano博士编著，320页pdf

专知会员服务

177+阅读 · 2023年5月30日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知会员服务

52+阅读 · 2022年11月22日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

OpenNRE 2.0：可一键运行的开源关系抽取工具包

OpenNRE 2.0：可一键运行的开源关系抽取工具包

PaperWeekly

22+阅读 · 2019年10月30日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

CARL: Focusing Agentic Reinforcement Learning on Critical Actions

Arxiv

0+阅读 · 2月5日

AgentRAN: An Agentic AI Architecture for Autonomous Control of Open 6G Networks

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Arxiv

0+阅读 · 1月22日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Arxiv

0+阅读 · 1月11日

Improving and Evaluating Open Deep Research Agents

Improving and Evaluating Open Deep Research Agents

Arxiv

0+阅读 · 1月8日

O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

Arxiv

0+阅读 · 1月7日

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

30+阅读 · 2025年12月31日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

34+阅读 · 2025年1月19日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

49+阅读 · 2023年12月20日

重磅！新书《多智能体强化学习：基础与现代方法》最新版，爱丁堡Stefano博士编著，320页pdf

重磅！新书《多智能体强化学习：基础与现代方法》最新版，爱丁堡Stefano博士编著，320页pdf

专知会员服务

177+阅读 · 2023年5月30日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知会员服务

52+阅读 · 2022年11月22日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战场：锻造陆军未来主导地位

伊朗导弹威胁持续，美军将“萨德”系统从韩国重新部署到中东

油价飙升考验特朗普政府对伊朗战略

《美陆军条令：陆军目标打击情报支援》2026最新版

相关资讯

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

OpenNRE 2.0：可一键运行的开源关系抽取工具包

OpenNRE 2.0：可一键运行的开源关系抽取工具包

PaperWeekly

22+阅读 · 2019年10月30日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

CARL: Focusing Agentic Reinforcement Learning on Critical Actions

Arxiv

0+阅读 · 2月5日

AgentRAN: An Agentic AI Architecture for Autonomous Control of Open 6G Networks

Arxiv

0+阅读 · 2月2日

DynaWeb: Model-Based Reinforcement Learning of Web Agents

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Arxiv

0+阅读 · 1月22日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Arxiv

0+阅读 · 1月11日

Improving and Evaluating Open Deep Research Agents

Improving and Evaluating Open Deep Research Agents

Arxiv

0+阅读 · 1月8日

O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

Arxiv

0+阅读 · 1月7日

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Arxiv

0+阅读 · 1月5日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员