While Vision Language Models (VLMs) show advancing reasoning capabilities, their application in meteorology is constrained by a domain gap and a reasoning faithfulness gap. Specifically, mainstream Reinforcement Fine-Tuning (RFT) can induce Self-Contradictory Reasoning (Self-Contra), where the model's reasoning contradicts its final answer, which is unacceptable in such a high-stakes domain. To address these challenges, we construct WeatherQA, a novel multimodal reasoning benchmark in meteorology. We also propose Logically Consistent Reinforcement Fine-Tuning (LoCo-RFT), which resolves Self-Contra by introducing a logical consistency reward. Furthermore, we introduce Weather-R1, the first reasoning VLM with logical faithfulness in meteorology, to the best of our knowledge. Experiments demonstrate that Weather-R1 improves performance on WeatherQA by 9.8 percentage points over the baseline, outperforming Supervised Fine-Tuning and RFT, and even surpassing the original Qwen2.5-VL-32B. These results highlight the effectiveness of our LoCo-RFT and the superiority of Weather-R1. Our benchmark and code are available at https://github.com/Marcowky/Weather-R1.


翻译:尽管视觉语言模型(VLMs)展现出日益增强的推理能力,但其在气象学领域的应用仍受限于领域鸿沟与推理忠实性鸿沟。具体而言,主流的强化微调方法可能引发自相矛盾推理,即模型的推理过程与其最终答案相矛盾,这在气象学等高风险领域是不可接受的。为应对这些挑战,我们构建了WeatherQA——一个新颖的气象学多模态推理基准。我们同时提出了逻辑一致性强化微调方法,该方法通过引入逻辑一致性奖励机制来解决自相矛盾推理问题。此外,据我们所知,我们首次提出了Weather-R1,这是首个具备逻辑忠实性的气象学推理视觉语言模型。实验表明,Weather-R1在WeatherQA基准上的性能较基线模型提升了9.8个百分点,其表现优于监督微调与强化微调方法,甚至超越了原始的Qwen2.5-VL-32B模型。这些结果凸显了我们所提LoCo-RFT方法的有效性以及Weather-R1模型的优越性。我们的基准数据集与代码已公开于https://github.com/Marcowky/Weather-R1。

0
下载
关闭预览

相关内容

强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员