Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learning task-conditioned attractors: latent dynamical systems whose stable fixed points correspond to valid solutions. We formalize this process through Equilibrium Reasoners (EqR), which enable test-time scaling without external verifiers or task-specific priors. EqR scales internal dynamics along two axes: depth, by running more iterations, and breadth, by aggregating stochastic trajectories from multiple initializations. Empirically, gains from test-time scaling are tightly coupled with stronger convergence toward solution-aligned attractors. This attractor perspective allows neural networks to adaptively allocate test-time compute based on task difficulty. While simple cases converge within 1 to 5 iteration steps, harder cases benefit from massive test-time scaling. By unrolling up to the equivalent of 40,000 layers, scalable latent reasoning boosts accuracy from 2.6% for feedforward models to over 99% on Sudoku-Extreme. These results suggest that learned attractor landscapes provide a useful mechanistic lens for understanding scalable reasoning in iterative latent models.


翻译:通过迭代更新隐状态来扩展测试时计算已成为一种强大的推理范式。然而,使这些迭代模型能够泛化到记忆模式之外的内在机制尚不明确。我们假设可泛化推理源于学习任务条件化吸引域:其稳定不动点对应有效解的隐式动力系统。我们通过均衡推理器(EqR)形式化这一过程,该模型无需外部验证器或任务特定先验即可实现测试时扩展。EqR沿两个维度扩展内部动力学:深度(通过增加迭代次数)与广度(通过聚合多个初始化的随机轨迹)。实验表明,测试时计算的增益与向解对齐吸引域的更强收敛性紧密耦合。这种吸引域视角使神经网络能根据任务难度自适应分配测试时计算资源:简单案例在1-5步迭代内即可收敛,而困难案例则受益于大规模测试时扩展。通过展开等效于40,000层的深度网络,可扩展隐式推理将数独极端难题的准确率从前馈模型的2.6%提升至99%以上。这些结果表明,习得性吸引域地貌为理解迭代隐式模型中的可扩展推理提供了有效的机理视角。

0
下载
关闭预览

相关内容

【NeurIPS2024】在复杂视觉推理场景中学习迭代和并行推理
专知会员服务
17+阅读 · 2024年11月30日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
知识图谱可解释推理研究综述
专知会员服务
178+阅读 · 2021年12月31日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员