Reinforcement Learning from Verifiable Rewards (RLVR) is bottlenecked by data: existing synthesis pipelines rely on expert-written code or fixed templates, confining growth to instance-level perturbations. We shift the evolvable unit from problem instances to task-family specifications. SSLogic is an agentic meta-synthesis framework in which LLM agents iteratively author and refine executable Generator-Validator pairs inside a closed Generate-Validate-Refine loop, producing families with new rules and difficulty gradients rather than parameter variations of old ones. A Multi-Gate Validation Protocol -- multi-strategy consensus plus Adversarial Blind Review, where independent agents solve each instance by writing and executing code -- filters ill-posed tasks before they enter training. Starting from 400 seed families, two evolution rounds yield 953 families and 21,389 verifiable instances. Three converging comparisons (step-matched, token-matched, and size-controlled on external Enigmata data) consistently show higher training utility of evolved data, with gains of SynLogic +5.2, AIME25 +3.0, and BBH +5.5 on Enigmata. Fine-grained KORBench evaluation reveals selective improvements in logic (+13.2%) and operation (+9.6%), linking structural evolution to downstream gains. Code: https://github.com/AdAstraAbyssoque/Scaling-the-Scaling-Logic


翻译:基于可验证奖励的强化学习(RLVR)受限于数据瓶颈:现有合成流程依赖专家编写的代码或固定模板,将增长限制在实例层面的扰动中。我们将可演化单元从问题实例转移到任务族规范上。SSLogic是一种智能体元综合框架,其中LLM智能体在封闭的"生成-验证-优化"循环中迭代编写并优化可执行的生成器-验证器对,从而产生具有新规则和难度梯度(而非旧有规则的参数变体)的任务族。多门验证协议——通过多策略共识与对抗性盲审(独立智能体通过编写和执行代码求解每个实例)——在低质量任务进入训练前即将其过滤。从400个种子任务族出发,经过两轮演化后,我们获得953个任务族和21,389个可验证实例。三项收敛性对比(步长匹配、词元匹配及在外部Enigmata数据上的规模控制实验)一致表明,演化数据具有更高的训练效用,在Enigmata数据集上SynLogic提升5.2%、AIME25提升3.0%、BBH提升5.5%。细粒度KORBench评估揭示了逻辑(+13.2%)和运算(+9.6%)领域的定向改进,将结构演化与下游性能提升关联起来。代码:https://github.com/AdAstraAbyssoque/Scaling-the-Scaling-Logic

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
50+阅读 · 2025年12月18日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月26日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员