Many recent reasoning gains in large language models can be explained as distribution sharpening: biasing generation toward high-likelihood trajectories already supported by the pretrained model, rather than modifying its weights. A natural formalization is the sequence-level power distribution $π_α(y\mid x)\propto p_θ(y\mid x)^α$ ($α>1$), which concentrates mass on whole sequences instead of adjusting token-level temperature. Prior work shows that Metropolis--Hastings (MH) sampling from this distribution recovers strong reasoning performance, but at order-of-magnitude inference slowdowns. We introduce Power-SMC, a training-free Sequential Monte Carlo scheme that targets the same objective while remaining close to standard decoding latency. Power-SMC advances a small particle set in parallel, corrects importance weights token-by-token, and resamples when necessary, all within a single GPU-friendly batched decode. We prove that temperature $τ=1/α$ is the unique prefix-only proposal minimizing incremental weight variance, interpret residual instability via prefix-conditioned Rényi entropies, and introduce an exponent-bridging schedule that improves particle stability without altering the target. On MATH500, Power-SMC matches or exceeds MH power sampling while reducing latency from $16$--$28\times$ to $1.4$--$3.3\times$ over baseline decoding. The code is available at https://github.com/ArminAzizi98/Power-SMC.


翻译:近年来大语言模型在推理能力上的诸多提升可归因于分布锐化机制:即在不修改模型权重的前提下,将生成过程偏向于预训练模型已支持的高似然轨迹。其自然形式化表述为序列级幂分布 $π_α(y\mid x)\propto p_θ(y\mid x)^α$($α>1$),该分布将概率质量集中作用于完整序列而非调整词元级温度参数。已有研究表明,从该分布进行Metropolis-Hastings(MH)采样可恢复强劲的推理性能,但会导致数量级级别的推理延迟。我们提出Power-SMC方法,这是一种免训练的序贯蒙特卡洛方案,在保持接近标准解码延迟的同时实现相同目标。Power-SMC以并行方式推进小型粒子集,逐词元校正重要性权重,并在必要时进行重采样,所有操作均可在单个GPU友好的批处理解码过程中完成。我们证明温度参数 $τ=1/α$ 是唯一能最小化增量权重方差的前缀唯一提议分布,通过前缀条件化Rényi熵解释残差不稳定性,并引入指数桥接调度策略以在不改变目标分布的前提下提升粒子稳定性。在MATH500数据集上,Power-SMC匹配或超越MH幂采样性能,同时将延迟从基线解码的$16$--$28$倍降至$1.4$--$3.3$倍。代码已开源:https://github.com/ArminAzizi98/Power-SMC。

0
下载
关闭预览

相关内容

SMC:IEEE International Conference on Systems,Man, and Cybernetics Explanation:IEEE系统、人与控制论国际会议。 Publisher:IEEE。 SIT: https://dblp.uni-trier.de/db/conf/smc/
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员