Standard chain-of-thought reasoning generates a solution in a single forward pass, committing irrevocably to each token and lacking a mechanism to recover from early errors. We introduce Inference-Time Rethinking, a generative framework that enables iterative self-correction by decoupling declarative latent thought vectors from procedural generation. We factorize reasoning into a continuous latent thought vector (what to reason about) and a decoder that verbalizes the trace conditioned on this vector (how to reason). Beyond serving as a declarative buffer, latent thought vectors compress the reasoning structure into a continuous representation that abstracts away surface-level token variability, making gradient-based optimization over reasoning strategies well-posed. Our prior model maps unstructured noise to a learned manifold of valid reasoning patterns, and at test time we employ a Gibbs-style procedure that alternates between generating a candidate trace and optimizing the latent vector to better explain that trace, effectively navigating the latent manifold to refine the reasoning strategy. Training a 0.2B-parameter model from scratch on GSM8K, our method with 30 rethinking iterations surpasses baselines with 10 to 15 times more parameters, including a 3B counterpart. This result demonstrates that effective mathematical reasoning can emerge from sophisticated inference-time computation rather than solely from massive parameter counts.


翻译:标准思维链推理在单次前向传播中生成解决方案,对每个标记做出不可撤销的承诺,且缺乏从早期错误中恢复的机制。我们提出推理时反思这一生成框架,通过将声明性潜在思维向量与程序化生成过程解耦,实现迭代式自我校正。我们将推理分解为连续潜在思维向量(推理内容)和基于该向量条件化生成推理轨迹的解码器(推理方式)。潜在思维向量不仅作为声明性缓冲区,还将推理结构压缩为连续表示,从而抽象掉表层标记的变异性,使得基于梯度的推理策略优化问题得以适定。我们的先验模型将非结构化噪声映射到已学习的有效推理模式流形,在测试阶段采用吉布斯式交替过程:首先生成候选推理轨迹,随后优化潜在向量以更好地解释该轨迹,从而有效遍历潜在流形以优化推理策略。在GSM8K数据集上从头训练一个0.2B参数的模型,经过30次反思迭代后,我们的方法超越了参数规模大10至15倍的基线模型,包括一个3B参数的对比模型。这一结果表明,有效的数学推理能力可以通过精密的推理时计算产生,而不仅仅依赖于海量参数规模。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
基于符号和参数化知识库的推理:综述
专知会员服务
33+阅读 · 2025年1月4日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员