Large Language Models (LLMs) have achieved significant success in complex reasoning but remain bottlenecked by reliance on expert-annotated data and external verifiers. While existing self-evolution paradigms aim to bypass these constraints, they often fail to identify the optimal learning zone and risk reinforcing collective hallucinations and incorrect priors through flawed internal feedback. To address these challenges, we propose \underline{A}utonomous \underline{E}volutionary \underline{R}easoning \underline{O}ptimization (AERO), an unsupervised framework that achieves autonomous reasoning evolution by internalizing self-questioning, answering, and criticism within a synergistic dual-loop system. Inspired by the \textit{Zone of Proximal Development (ZPD)} theory, AERO utilizes entropy-based positioning to target the ``solvability gap'' and employs Independent Counterfactual Correction for robust verification. Furthermore, we introduce a Staggered Training Strategy to synchronize capability growth across functional roles and prevent curriculum collapse. Extensive evaluations across nine benchmarks spanning three domains demonstrate that AERO achieves average performance improvements of 4.57\% on Qwen3-4B-Base and 5.10\% on Qwen3-8B-Base, outperforming competitive baselines. Code is available at https://github.com/mira-ai-lab/AERO.


翻译:大型语言模型(LLMs)在复杂推理任务中已取得显著成功,但其发展仍受限于对专家标注数据和外部验证器的依赖。现有的自我进化范式虽旨在突破这些限制,却往往难以定位最优学习区间,并可能通过有缺陷的内部反馈强化集体幻觉与错误先验。为应对这些挑战,我们提出自主进化推理优化(AERO),一种无监督框架,通过将自我提问、回答与批判内化于协同双环系统中,实现自主推理进化。受“最近发展区(ZPD)”理论启发,AERO利用基于熵的定位方法瞄准“可解性间隙”,并采用独立反事实校正进行鲁棒验证。此外,我们引入交错训练策略,以同步不同功能角色的能力增长并防止课程崩溃。在涵盖三个领域的九个基准测试上的广泛评估表明,AERO在Qwen3-4B-Base和Qwen3-8B-Base模型上分别实现了平均4.57%和5.10%的性能提升,优于现有竞争基线。代码发布于https://github.com/mira-ai-lab/AERO。

0
下载
关闭预览

相关内容

自进化智能体综述:通往人工超级智能之路
专知会员服务
38+阅读 · 2025年7月30日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大模型如何迭代?北大等《大型语言模型自我进化》综述
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员