From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents - 专知论文

会员服务 ·

0

工具 · 工具使用 · 演进 · 合成 · 交互 ·

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

翻译：从自演进的合成数据到可验证奖励强化学习：训练后多轮交互式工具使用智能体

Jiaxuan Gao,Jiaao Chen,Chuyi He,Wei-Chen Wang,Shusheng Xu,Hanrui Wang,Di Jin,Yi Wu

from arxiv, Submitted to ICML 2026

Interactive tool-using agents must solve real-world tasks via multi-turn interaction with both humans and external environments, requiring dialogue state tracking, multi-step tool execution, while following complex instructions. Post-training such agents is challenging because synthesis for high-quality multi-turn tool-use data is difficult to scale, and reinforcement learning (RL) could face noisy signals caused by user simulation, leading to degraded training efficiency. We propose a unified framework that combines a self-evolving data agent with verifier-based RL. Our system, EigenData, is a hierarchical multi-agent engine that synthesizes tool-grounded dialogues together with executable per-instance checkers, and improves generation reliability via closed-loop self-evolving process that updates prompts and workflow. Building on the synthetic data, we develop an RL recipe that first fine-tunes the user model and then applies GRPO-style training with trajectory-level group-relative advantages and dynamic filtering, yielding consistent improvements beyond SFT. Evaluated on tau^2-bench, our best model reaches 73.0% pass^1 on Airline and 98.3% pass^1 on Telecom, matching or exceeding frontier models. Overall, our results suggest a scalable pathway for bootstrapping complex tool-using behaviors without expensive human annotation.

翻译：交互式工具使用智能体需通过与人及外部环境的多轮交互解决现实任务，这要求其具备对话状态追踪、多步骤工具执行能力，并能遵循复杂指令。此类智能体的训练后优化面临双重挑战：高质量多轮工具使用数据的合成难以规模化扩展，而强化学习（RL）可能因用户模拟产生的噪声信号导致训练效率下降。本文提出一个统一框架，将自演进数据智能体与基于验证器的强化学习相结合。我们的系统EigenData是一个分层多智能体引擎，能同步生成工具落地的对话实例及其可执行的逐实例检查器，并通过更新提示词与工作流的闭环自演进过程提升生成可靠性。基于合成数据，我们开发了一套强化学习方案：先对用户模型进行微调，再采用结合轨迹级组间相对优势与动态筛选的GRPO风格训练，实现了超越监督微调（SFT）的持续性能提升。在tau^2-bench基准测试中，我们的最优模型在Airline任务上达到73.0% pass^1，在Telecom任务上达到98.3% pass^1，性能匹配或超越了前沿模型。总体而言，本研究为无需昂贵人工标注即可实现复杂工具使用行为规模化构建提供了可行路径。

0

相关内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

41+阅读 · 2025年4月18日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

62+阅读 · 2025年2月14日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

148+阅读 · 2022年7月8日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings

Arxiv

0+阅读 · 2月13日

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

Arxiv

0+阅读 · 2月12日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月30日

Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

4+阅读 · 今天15:46

ICML2026 | 重新思考顺序知识编辑中的正则化

ICML2026 | 重新思考顺序知识编辑中的正则化

专知会员服务

0+阅读 · 今天15:44

《用于兵力发展选项优先排序的成本效益模型》

《用于兵力发展选项优先排序的成本效益模型》

专知会员服务

4+阅读 · 今天15:43

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

0+阅读 · 今天15:41

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

专知会员服务

3+阅读 · 今天15:37

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

专知会员服务

5+阅读 · 5月26日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

6+阅读 · 5月26日

《Palantir边缘人工智能》手册

《Palantir边缘人工智能》手册

专知会员服务

19+阅读 · 5月26日

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

专知会员服务

10+阅读 · 5月26日

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

专知会员服务

8+阅读 · 5月26日

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

专知会员服务

9+阅读 · 5月26日

《基于非声学传感器的贝叶斯搜索研究》总结报告

《基于非声学传感器的贝叶斯搜索研究》总结报告

专知会员服务

5+阅读 · 5月26日

美军“国防自主作战群”（DAWG）概念解析

美军“国防自主作战群”（DAWG）概念解析

专知会员服务

3+阅读 · 5月26日

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

15+阅读 · 5月25日

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

6+阅读 · 5月25日

相关VIP内容

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

41+阅读 · 2025年4月18日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

62+阅读 · 2025年2月14日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

148+阅读 · 2022年7月8日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML2026 | 重新思考顺序知识编辑中的正则化

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《用于兵力发展选项优先排序的成本效益模型》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月25日

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Arxiv

0+阅读 · 2月18日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings

Arxiv

0+阅读 · 2月13日

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

Arxiv

0+阅读 · 2月12日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月30日

Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems

Arxiv

0+阅读 · 1月29日

相关基金

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员