The evolution of Remote Sensing Vision-Language Models(RS-VLMs) emphasizes the importance of transitioning from perception-centric recognition toward high-level deductive reasoning to enhance cognitive reliability in complex spatial tasks. However, current models often suffer from logical hallucinations, where correct answers are derived from flawed reasoning chains or rely on positional shortcuts rather than spatial logic. This decoupling undermines reliability in strategic spatial decision-making. To address this, we present GeoReason, a framework designed to synchronize internal thinking with final decisions. We first construct GeoReason-Bench, a logic-driven dataset containing 4,000 reasoning trajectories synthesized from geometric primitives and expert knowledge. We then formulate a two-stage training strategy: (1) Supervised Knowledge Initialization to equip the model with reasoning syntax and domain expertise, and (2) Consistency-Aware Reinforcement Learning to refine deductive reliability. This second stage integrates a novel Logical Consistency Reward, which penalizes logical drift via an option permutation strategy to anchor decisions in verifiable reasoning traces. Experimental results demonstrate that our framework significantly enhances the cognitive reliability and interpretability of RS-VLMs, achieving state-of-the-art performance compared to other advanced methods.


翻译:遥感视觉语言模型的发展强调从以感知为中心的识别向高级演绎推理转变的重要性,以提升复杂空间任务中的认知可靠性。然而,现有模型常受逻辑幻觉困扰,即正确答案源自有缺陷的推理链或依赖位置捷径而非空间逻辑。这种思维与决策的脱钩削弱了战略性空间决策的可靠性。为解决此问题,我们提出了GeoReason框架,旨在同步内部思维与最终决策。我们首先构建了GeoReason-Bench,这是一个包含4,000条从几何基元与专家知识合成的推理轨迹的逻辑驱动数据集。随后,我们设计了一个两阶段训练策略:(1)监督知识初始化,为模型赋予推理语法与领域专业知识;(2)一致性感知强化学习,以优化演绎可靠性。第二阶段整合了一种新颖的逻辑一致性奖励,该奖励通过选项排列策略惩罚逻辑漂移,从而将决策锚定于可验证的推理轨迹中。实验结果表明,我们的框架显著提升了遥感视觉语言模型的认知可靠性与可解释性,相较于其他先进方法实现了最先进的性能。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员