MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action - 专知论文

会员服务 ·

0

潜在 · 控制器 · 解码 · 路径 · 词元分析器 ·

MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

翻译：MPCot：奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作模型

Boyang Zhang,Lianlei Shan

from arxiv, 14 pages, 5 figures, submitted to CoRL

Vision-Language-Action (VLA) policies remain brittle in long-horizon and high-uncertainty control, where one-pass action decoding provides limited inference-time deliberation. Explicit chain-of-thought can increase reasoning depth, but introduces token latency and an indirect text-to-action interface. We propose MPCoT, a reward-guided multi-path latent reasoning framework that initializes $M$ hypotheses, refines them for K weight-tied steps, and softly aggregates them before action decoding. A training-only path-preference objective evaluates candidate action branches with expert-action consistency, world-model/VLM-based progress, and success feedback to align the latent path scorer with downstream execution quality. MPCoT preserves the original 8-step action interface, generates zero reasoning tokens, and exposes configurable inference controls (K,M). Under matched protocols on LIBERO and CALVIN, MPCoT improves long-horizon performance, with ablations confirming depth-width effects, confidence-weighted aggregation, and reward-guided path supervision.

翻译：视觉-语言-动作（VLA）策略在长时域和高不确定性控制中仍存在脆弱性，其单次动作解码提供的推理时推演能力有限。显式思维链虽能提升推理深度，但会引入令牌延迟及间接的文本-动作接口。我们提出MPCot，一种奖励引导的多路径潜在推理框架：初始化M个假设路径，经K步权重共享迭代优化后，在动作解码前进行软聚合。训练阶段仅需路径偏好目标，该目标通过专家动作一致性、基于世界模型/视觉语言模型的进度评估及成功反馈信号，对齐候选动作分支与下游执行质量，从而训练潜在路径评分器。MPCot保持原始8步动作接口，零推理令牌生成，并提供可配置的推理控制参数（K，M）。在LIBERO和CALVIN基准的匹配协议下，MPCot显著提升长时域性能，消融实验进一步验证了深度-宽度效应、置信加权聚合及奖励引导路径监督的有效性。

0

相关内容

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

专知会员服务

12+阅读 · 5月20日

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Tyler: Typed Latent Reasoning for Language Models -- When to Think, What to Compute, and How Much to Allocate

Arxiv

0+阅读 · 6月15日

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models

Arxiv

0+阅读 · 6月15日

Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Arxiv

0+阅读 · 6月14日

Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models

Arxiv

0+阅读 · 6月13日

QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models

Arxiv

0+阅读 · 6月9日

Continuous Reasoning for Vision-Language-Action

Arxiv

0+阅读 · 6月8日

MotionVLA: Injecting Geometric Motion into Vision-Language-Action Model

Arxiv

0+阅读 · 6月6日

vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

Arxiv

0+阅读 · 6月6日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

词元分析器

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

专知会员服务

12+阅读 · 5月20日

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

70页pdf《视觉-语言-动作模型综述：一种基于动作离散化的视角》

专知会员服务

21+阅读 · 2025年7月3日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

论文浅尝 | MCCLK: 一个用于知识感知推荐的多层次的交叉视图对比框架

开放知识图谱

10+阅读 · 2022年8月8日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Tyler: Typed Latent Reasoning for Language Models -- When to Think, What to Compute, and How Much to Allocate

Arxiv

0+阅读 · 6月15日

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models

Arxiv

0+阅读 · 6月15日

Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Arxiv

0+阅读 · 6月14日

Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models

Arxiv

0+阅读 · 6月13日

QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models

Arxiv

0+阅读 · 6月9日

Continuous Reasoning for Vision-Language-Action

Arxiv

0+阅读 · 6月8日

MotionVLA: Injecting Geometric Motion into Vision-Language-Action Model

Arxiv

0+阅读 · 6月6日

vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

Arxiv

0+阅读 · 6月6日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Arxiv

0+阅读 · 5月13日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员