Although the power of LLM tool-use agents has ignited a flurry of recent research in this area, the curation of tool-use training data remains an open problem$-$especially for online RL training. Existing approaches to synthetic tool-use data generation tend to be non-interactive, and/or non-compositional. We introduce RandomWorld, a pipeline for the procedural generation of interactive tools and compositional tool-use data. We show that models tuned via SFT and RL on synthetic RandomWorld data improve on a range of tool-use benchmarks, and set the new SoTA for two metrics on the NESTFUL dataset. Further experiments show that downstream performance scales with the amount of RandomWorld-generated training data, opening up the possibility of further improvement through the use of entirely synthetic data.
翻译:尽管大型语言模型(LLM)工具使用智能体的能力已引发该领域近期研究的热潮,但工具使用训练数据的构建仍是一个悬而未决的问题——尤其是在在线强化学习(RL)训练中。现有的合成工具使用数据生成方法往往是非交互式的和/或非组合式的。我们提出了RandomWorld,一个用于程序化生成交互式工具及组合式工具使用数据的流程。研究表明,通过监督微调(SFT)和强化学习(RL)在RandomWorld合成数据上调优的模型,在一系列工具使用基准测试中表现提升,并在NESTFUL数据集上的两项指标中创造了新的最高性能(SoTA)。进一步的实验表明,下游任务性能随RandomWorld生成训练数据量的增加而提升,这为通过使用完全合成数据实现进一步改进开辟了可能性。