Automatic metrics are now central to evaluating text-to-image models, often substituting for human judgment in benchmarking and large-scale filtering. However, it remains unclear whether these metrics truly prioritize semantic correctness or instead favor visually and socially prototypical images learned from biased data distributions. We identify and study prototypicality bias as a systematic failure mode in multimodal evaluation. We introduce a controlled contrastive benchmark ProtoBias (Prototypical Bias), spanning Animals, Objects, and Demography images, where semantically correct but non-prototypical images are paired with subtly incorrect yet prototypical adversarial counterparts. This setup enables a directional evaluation of whether metrics follow textual semantics or default to prototypes. Our results show that widely used metrics, including CLIPScore, PickScore, and VQA-based scores, frequently misrank these pairs, while even LLM-as-Judge systems exhibit uneven robustness in socially grounded cases. Human evaluations consistently favour semantic correctness with larger decision margins. Motivated by these findings, we propose ProtoScore, a robust 7B-parameter metric that substantially reduces failure rates and suppresses misranking, while running at orders of magnitude faster than the inference time of GPT-5, approaching the robustness of much larger closed-source judges.


翻译:自动评估指标现已成为评估文本到图像模型的核心工具,常在基准测试和大规模筛选中替代人类判断。然而,这些指标究竟是在真正优先考虑语义正确性,还是仅仅青睐从有偏数据分布中学到的视觉与社会原型图像,目前尚不明确。我们识别并研究了原型性偏差作为多模态评估中的一种系统性失效模式。我们引入了一个受控对比基准ProtoBias(原型性偏差),涵盖动物、物体和人口统计图像类别,其中语义正确但非原型的图像与轻微错误但却是原型的对抗性对应图像配对。这种设置能够定向评估指标是遵循文本语义还是默认选择原型。我们的结果表明,广泛使用的指标(包括CLIPScore、PickScore和基于VQA的评分)经常对这些配对进行错误排序,而即使是LLM-as-Judge系统在社会情境案例中也表现出不均衡的鲁棒性。人类评估则始终更倾向于语义正确性,且决策边界更大。基于这些发现,我们提出了ProtoScore,这是一个鲁棒的70亿参数指标,能显著降低失效率并抑制错误排序,同时其运行速度比GPT-5的推理时间快数个数量级,接近更大规模闭源评估系统的鲁棒性水平。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 55分钟前
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
4+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
4+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
4+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员