Reinforcement Learning (RL) has been shown to significantly boost reasoning capabilities of large language models (LLMs) in math, coding, and multi-hop reasoning tasks. However, RL fine-tuning requires abundant high-quality verifiable data, often sourced from human annotations, generated from frontier LLMs, or scored by LLM-based verifiers. All three have considerable limitations: human-annotated datasets are small and expensive to curate, LLM-generated data is hallucination-prone and costly, and LLM-based verifiers are inaccurate and slow. In this work, we investigate a cheaper alternative: RL fine-tuning on rule-generated synthetic data for multi-hop reasoning tasks. We discover that LLMs fine-tuned on synthetic data perform significantly better on popular real-world question-answering benchmarks, despite the synthetic data containing only fictional knowledge. On stratifying performance by question difficulty, we find that synthetic data teaches LLMs to compose knowledge -- a fundamental and generalizable reasoning skill. Our work highlights rule-generated synthetic reasoning data as a free and scalable resource to improve LLM reasoning capabilities.


翻译:强化学习已被证明能显著提升大型语言模型在数学、代码生成及多跳推理任务中的推理能力。然而,强化学习微调需要大量高质量可验证数据,这些数据通常来源于人工标注、前沿大型语言模型生成或基于LLM的验证器评分。这三种方式均存在显著局限:人工标注数据集规模小且标注成本高昂;LLM生成的数据易产生幻觉且代价昂贵;基于LLM的验证器则存在准确率低、速度慢的问题。本研究探索了一种更经济的替代方案:在多跳推理任务中使用规则生成的合成数据进行强化学习微调。我们发现,尽管合成数据仅包含虚构知识,但基于其微调的LLM在主流现实世界问答基准测试中表现显著更优。通过按问题难度分层分析性能,我们发现合成数据能教会LLM进行知识组合——这是一种基础且可泛化的推理技能。本研究凸显了规则生成的合成推理数据作为免费可扩展资源对于提升LLM推理能力的重要价值。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
增强大模型智能:数学推理能力的提升策略与实践
专知会员服务
25+阅读 · 2024年8月25日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
【MIT博士论文】数据高效强化学习,176页pdf
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员