We study the reasoning behavior of large language models (LLMs) under limited computation budgets. In such settings, producing useful partial solutions quickly is often more practical than exhaustive reasoning, which incurs high inference costs. Many real-world tasks, such as trip planning, require models to deliver the best possible output within a fixed reasoning budget. We introduce an anytime reasoning framework and the Anytime Index, a metric that quantifies how effectively solution quality improves as reasoning tokens increase. To further enhance efficiency, we propose an inference-time self-improvement method using LLM-synthesized preference data, where models learn from their own reasoning comparisons to produce better intermediate solutions. Experiments on NaturalPlan (Trip), AIME, and GPQA datasets show consistent gains across Grok-3, GPT-oss, GPT-4.1/4o, and LLaMA models, improving both reasoning quality and efficiency under budget constraints.


翻译:我们研究了大型语言模型(LLM)在计算预算有限条件下的推理行为。在此类设置中,快速生成有用的部分解往往比耗时的高推理成本穷举推理更为实用。诸如行程规划等现实任务要求模型在固定推理预算内输出尽可能优的结果。我们提出了一种即时推理框架及即时指数指标——该指标量化了推理令牌数量增加时解质量提升的有效性。为进一步提升效率,我们创新性地利用LLM合成偏好数据实现推理时自我改进方法,使模型通过自身推理对比学习以生成更优的中间解。在NaturalPlan(行程)、AIME和GPQA数据集上的实验表明,该方法在Grok-3、GPT-oss、GPT-4.1/4o及LLaMA系列模型上均取得一致性增益,在预算约束下显著提升推理质量与效率。

0
下载
关闭预览

相关内容

【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
23+阅读 · 2025年6月11日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
9+阅读 · 2025年1月14日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
38+阅读 · 2025年1月10日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员