Parallel Test-Time Scaling with Multi-Sequence Verifiers - 专知论文

会员服务 ·

0

多序列 · 序列 · 并行 · 并行测试 · 早停 ·

Parallel Test-Time Scaling with Multi-Sequence Verifiers

翻译：标题：多序列验证器下的并行测试时扩展

Yegon Kim,Seungyoo Lee,Chaeyun Jang,Hyungi Lee,Juho Lee

Parallel test-time scaling, which generates multiple candidate solutions for a single problem, is a powerful technique for improving large language model performance. However, it is hindered by two key bottlenecks: accurately selecting the correct solution from the candidate pool, and the high inference latency from generating many full solutions. We argue that both challenges are fundamentally linked to verifier calibration, as a well-calibrated verifier improves answer selection and enables early-stopping strategies to reduce latency. However, existing non-generative verifiers are limited as they score each candidate in isolation, overlooking rich contextual information across the set of candidates. To address this, we introduce the Multi-Sequence Verifier (MSV), a lightweight verifier that predicts each candidate's correctness conditioned on the full sampled set. MSV achieves improved calibration, which directly enhances best-of-N selection performance and empowers a novel early-stopping framework. Across challenging mathematical reasoning benchmarks, MSV improves best-of-64 accuracy by up to 6\% relative to strong baselines, and in the early-stopping setting reaches the same accuracy as baselines with less than half the latency.

翻译：摘要：并行测试时扩展（即为单个问题生成多个候选解决方案）是提升大型语言模型性能的有效技术。然而，该方法面临两大瓶颈：一是如何从候选方案中准确选择正确解，二是生成大量完整解决方案导致的高推理延迟。我们认为这两个挑战本质上与验证器的校准能力相关——校准良好的验证器既能改进答案选择，又能支持早停策略以降低延迟。然而，现有非生成式验证器存在局限性：它们孤立地评估每个候选方案，忽略了跨候选集的丰富上下文信息。为此，我们提出多序列验证器（MSV），这是一种轻量级验证器，能基于完整采样集预测每个候选方案的正确性。MSV实现了更优的校准，这直接提升了最佳-N选优性能，并赋能了一种新颖的早停框架。在具有挑战性的数学推理基准测试中，MSV将最佳-64选优准确率相比强基线提升了最高6%，而在早停设置下，可在不到基线一半延迟的情况下达到相同准确率。

0

相关内容

多序列

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

12+阅读 · 6月9日

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

大语言模型推理时扩展：从子问题结构视角的综述

大语言模型推理时扩展：从子问题结构视角的综述

专知会员服务

17+阅读 · 2025年11月20日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

专知会员服务

22+阅读 · 2024年3月1日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

87+阅读 · 2020年5月23日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月16日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月14日

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Arxiv

0+阅读 · 6月12日

Accelerating Speculative Diffusions via Block Verification

Arxiv

0+阅读 · 6月11日

MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling

Arxiv

0+阅读 · 6月11日

Intrinsic Selection and Particle Resampling for Inference-Time Scaling Beyond Domain Verifiability

Arxiv

0+阅读 · 6月7日

Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration

Arxiv

0+阅读 · 5月24日

SwiftFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs

Arxiv

0+阅读 · 5月22日

Tiny Inference-Time Scaling with Latent Verifiers

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

12+阅读 · 6月9日

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

大语言模型推理时扩展：从子问题结构视角的综述

大语言模型推理时扩展：从子问题结构视角的综述

专知会员服务

17+阅读 · 2025年11月20日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

【CVPR2024】DistriFusion: 高分辨率扩散模型的分布式并行推理

专知会员服务

22+阅读 · 2024年3月1日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

87+阅读 · 2020年5月23日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

相关论文

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月16日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月14日

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Arxiv

0+阅读 · 6月12日

Accelerating Speculative Diffusions via Block Verification

Arxiv

0+阅读 · 6月11日

MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling

Arxiv

0+阅读 · 6月11日

Intrinsic Selection and Particle Resampling for Inference-Time Scaling Beyond Domain Verifiability

Arxiv

0+阅读 · 6月7日

Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration

Arxiv

0+阅读 · 5月24日

SwiftFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs

Arxiv

0+阅读 · 5月22日

Tiny Inference-Time Scaling with Latent Verifiers

Arxiv

0+阅读 · 3月25日

相关基金

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员