Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced reasoning capabilities in Large Language Models. However, adapting RLVR to multimodal domains suffers from a critical \textit{perception-reasoning decoupling}. Existing paradigms, driven by text-centric outcome rewards, reasoning in language medium, inadvertently encourage models to bypass visual perception. We empirically validate this through blind experiments: state-of-the-art policies maintain or surprisingly improve performance even when visual inputs are entirely removed. This reveals that these models degenerate into \textit{blind reasoners}, exploiting linguistic priors to generate plausible answers instead of attending to visual evidence. In response, we propose \textbf{Thinking with Deltas}, a framework driven by a \textbf{Differential Visual Reasoning Policy (DVRP)}. DVRP introduces intrinsic supervision via visual triplets, comprising original, masked, and perturbed inputs. It optimizes the model to maximize reasoning divergence from masked inputs (enforcing \textit{visual sensitivity}) while minimizing divergence from perturbed inputs (ensuring \textit{visual robustness}). By aligning reasoning variations strictly with the \textit{Delta} of visual information, DVRP inherently bolsters visual understanding capabilities and significantly outperforms state-of-the-art methods on both general and medical benchmarks, without requiring external annotations or auxiliary tools.


翻译:可验证奖励强化学习(RLVR)显著提升了大型语言模型的推理能力。然而,将RLVR应用于多模态领域时,存在关键的“感知-推理解耦”问题。现有范式以文本为中心的结果奖励为驱动,在语言媒介中进行推理,无意中鼓励模型绕过视觉感知。我们通过盲实验对此进行了实证验证:即使视觉输入被完全移除,最先进的策略仍能保持甚至意外地提升性能。这表明这些模型退化为“盲推理器”,利用语言先验生成看似合理的答案,而非关注视觉证据。为此,我们提出**基于差分思维**的框架,该框架由**差分视觉推理策略(DVRP)**驱动。DVRP通过视觉三元组(包含原始、掩码和扰动输入)引入内在监督。它优化模型以最大化与掩码输入之间的推理差异(强制“视觉敏感性”),同时最小化与扰动输入之间的推理差异(确保“视觉鲁棒性”)。通过将推理变化严格与视觉信息的“差分”对齐,DVRP本质上增强了视觉理解能力,并在通用和医学基准测试中显著优于现有最先进方法,且无需外部标注或辅助工具。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
1+阅读 · 今天14:47
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
1+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
1+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 今天3:12
相关VIP内容
因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
34+阅读 · 2025年12月24日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员