The adaptation of large-scale Vision-Language Models (VLMs) through post-training reveals a pronounced generalization gap: models fine-tuned with Reinforcement Learning (RL) consistently achieve superior out-of-distribution (OOD) performance compared to those trained with Supervised Fine-Tuning (SFT). This paper posits a data-centric explanation for this phenomenon, contending that RL's generalization advantage arises from an implicit data filtering mechanism that inherently prioritizes medium-difficulty training samples. To test this hypothesis, we systematically evaluate the OOD generalization of SFT models across training datasets of varying difficulty levels. Our results confirm that data difficulty is a critical factor, revealing that training on hard samples significantly degrades OOD performance. Motivated by this finding, we introduce Difficulty-Curated SFT (DC-SFT), a straightforward method that explicitly filters the training set based on sample difficulty. Experiments show that DC-SFT not only substantially enhances OOD generalization over standard SFT, but also surpasses the performance of RL-based training, all while providing greater stability and computational efficiency. This work offers a data-centric account of the OOD generalization gap in VLMs and establishes a more efficient pathway to achieving robust generalization. Code is available at https://github.com/byyx666/DC-SFT.


翻译:大规模视觉语言模型(VLM)通过后训练进行适配时,呈现出显著的泛化差距:与采用监督微调(SFT)训练的模型相比,使用强化学习(RL)微调的模型在分布外(OOD)性能上始终表现更优。本文从数据中心的视角对这一现象提出解释,认为RL的泛化优势源于一种隐式的数据过滤机制,该机制本质上优先选择了中等难度的训练样本。为验证这一假设,我们系统评估了SFT模型在不同难度级别训练数据集上的OOD泛化能力。实验结果证实数据难度是关键因素,表明在困难样本上训练会显著降低OOD性能。基于这一发现,我们提出了难度筛选监督微调(DC-SFT),这是一种根据样本难度显式过滤训练集的简单方法。实验表明,DC-SFT不仅显著提升了标准SFT的OOD泛化能力,其性能甚至超越了基于RL的训练方法,同时提供了更高的稳定性和计算效率。这项工作为VLM中的OOD泛化差距提供了数据中心的解释,并建立了一条实现鲁棒泛化的更高效路径。代码发布于 https://github.com/byyx666/DC-SFT。

0
下载
关闭预览

相关内容

深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
SFT 记忆,RL 泛化:基础模型后训练的比较研究
专知会员服务
24+阅读 · 2025年2月3日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员