Multimodal reward models are crucial for aligning multimodal large language models with human preferences. Recent works have incorporated reasoning capabilities into these models, achieving promising results. However, training these models suffers from two critical challenges: (1) the inherent noise in preference datasets, which degrades model performance, and (2) the inefficiency of conventional training methods, which ignore the differences in sample difficulty. In this paper, we identify a strong correlation between response entropy and accuracy, indicating that entropy can serve as a reliable and unsupervised proxy for annotation noise and sample difficulty. Based on this insight, we propose a novel Entropy-Guided Training (EGT) approach for multimodal reasoning reward models, which combines two strategies: (1) entropy-guided data curation to mitigate the impact of unreliable samples, and (2) an entropy-guided training strategy that progressively introduces more complex examples. Extensive experiments across three benchmarks show that the EGT-trained model consistently outperforms state-of-the-art multimodal reward models.


翻译:多模态奖励模型对于将多模态大语言模型与人类偏好对齐至关重要。近期研究将推理能力融入此类模型,取得了令人瞩目的成果。然而,训练这些模型面临两大关键挑战:(1) 偏好数据集中固有的噪声会降低模型性能;(2) 传统训练方法效率低下,忽视了样本难度的差异性。本文发现响应熵与准确性之间存在强相关性,表明熵可作为标注噪声和样本难度的可靠无监督代理指标。基于此洞见,我们提出一种新颖的熵引导训练方法用于多模态推理奖励模型,该方法融合两种策略:(1) 熵引导数据筛选以减轻不可靠样本的影响;(2) 渐进引入复杂样本的熵引导训练策略。在三个基准测试上的大量实验表明,经EGT训练的模型持续优于最先进的多模态奖励模型。

0
下载
关闭预览

相关内容

强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
24+阅读 · 2025年1月31日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
40+阅读 · 2024年10月21日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员