Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations.The code is available at https://github.com/RUCBM/DARC.


翻译:基于大语言模型的自博弈已成为实现自我改进人工智能的一种前景广阔的研究范式。然而,现有自博弈框架常因以下两个问题而面临优化不稳定性挑战:(i) 提问者获得的奖励反馈依赖于求解器,导致其优化目标具有非平稳性;(ii) 求解器训练所使用的自生成伪标签存在自举误差。为缓解这些挑战,我们提出了DARC(解耦非对称推理课程),这是一个通过两阶段框架稳定自进化过程的方法。首先,我们训练提问者基于显式难度级别和外部语料库,合成难度可校准的问题。其次,我们通过一种非对称自蒸馏机制训练求解器:其中,一个具备文档增强能力的教师模型生成高质量伪标签,用以监督无法访问文档的学生求解器。实证结果表明,DARC具有模型无关性,在九个推理基准测试和三种骨干模型上平均实现了10.9个百分点的性能提升。此外,DARC在所有基线方法中均表现优异,并在不依赖人工标注的情况下,其性能逼近全监督模型。代码已发布于 https://github.com/RUCBM/DARC。

0
下载
关闭预览

相关内容

大模型如何迭代?北大等《大型语言模型自我进化》综述
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算
专知会员服务
151+阅读 · 2023年4月26日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大模型如何迭代?北大等《大型语言模型自我进化》综述
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算
专知会员服务
151+阅读 · 2023年4月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员