Reasoning ability, a core component of human intelligence, continues to pose a significant challenge for Large Language Models (LLMs) in the pursuit of AGI. Although model performance has improved under the training scaling law, significant challenges remain, particularly with respect to training algorithms, such as catastrophic forgetting, and the limited availability of novel training data. As an alternative, test-time scaling enhances reasoning performance by increasing test-time computation without parameter updating. Unlike prior methods in this paradigm focused on token space, we propose leveraging latent space for more effective reasoning and better adherence to the test-time scaling law. We introduce LatentSeek, a novel framework that enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA) within the model's latent space. Specifically, LatentSeek leverages policy gradient to iteratively update latent representations, guided by self-generated reward signals. LatentSeek is evaluated on a range of reasoning benchmarks, including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures. Results show that LatentSeek consistently outperforms strong baselines, such as Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our analysis demonstrates that LatentSeek is highly efficient, typically converging within a few iterations for problems of average complexity, while also benefiting from additional iterations, thereby highlighting the potential of test-time scaling in the latent space. These findings position LatentSeek as a lightweight, scalable, and effective solution for enhancing the reasoning capabilities of LLMs.


翻译:推理能力作为人类智能的核心组成部分,在追求通用人工智能(AGI)的过程中,对大型语言模型(LLMs)而言仍然构成重大挑战。尽管模型性能在训练扩展定律下有所提升,但依然存在显著挑战,特别是在训练算法方面,例如灾难性遗忘,以及新颖训练数据的有限可用性。作为一种替代方案,测试时扩展通过增加测试时计算量而不更新参数,来提升推理性能。与此范式中先前专注于词元空间的方法不同,我们提出利用潜在空间以实现更有效的推理和更好地遵循测试时扩展定律。我们提出了LatentSeek,一个新颖的框架,它通过模型潜在空间内的测试时实例级适应(TTIA)来增强LLM的推理能力。具体而言,LatentSeek利用策略梯度,在自我生成奖励信号的引导下,迭代更新潜在表示。我们在多个推理基准测试(包括GSM8K、MATH-500和AIME2024)上,跨多种LLM架构对LatentSeek进行了评估。结果表明,LatentSeek始终优于强大的基线方法,例如思维链提示和基于微调的方法。此外,我们的分析表明,LatentSeek具有很高的效率,对于平均复杂度的问题通常能在几次迭代内收敛,同时也能从额外迭代中获益,从而凸显了潜在空间中测试时扩展的潜力。这些发现使LatentSeek成为一种轻量级、可扩展且有效的解决方案,用于增强LLMs的推理能力。

0
下载
关闭预览

相关内容

《潜在推理综述》
专知会员服务
21+阅读 · 2025年7月9日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
127+阅读 · 2024年1月27日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员