Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.


翻译:近期多模态大语言模型展现出强大的推理能力,但其作为自动化评估器的可靠性仍受制于一个关键缺陷:当视觉证据与文本线索冲突时,多模态大语言模型评判器倾向于奖励具有合理叙事性的回答,而非基于感知正确的答案。我们识别并系统分析了这一现象,并将其定义为"感知判断偏差"。通过可控视觉扰动实验,现有模态大语言模型评判器经常固守于响应文本而非自身视觉感知,导致评估结果不一致且不可验证。为解决此问题,我们构建了"感知扰动判断数据集",该数据集通过最小编辑生成反事实响应,以隔离感知错误并提供可验证的监督信号。在此数据集基础上,我们开发了统一训练框架,将基于结构化GRPO的奖励与批次排序目标相结合,无需显式成对标签即可实现全局有序排列。在多模态大语言模型评判器基准测试上的实验表明,我们的方法显著提升了感知保真度、排序一致性和与人类评估的一致性。研究结果为训练具备感知基础、可解释性且对视觉-推理冲突具有鲁棒性的多模态评判器,开辟了一条可扩展且具泛化性的技术路径。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
浅谈多模态大模型幻觉缓解方法
专知会员服务
24+阅读 · 2024年12月17日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员