While vision-language models (VLMs) have advanced into detailed image description, evaluation remains a challenge. Standard metrics (e.g. CIDEr, SPICE) were designed for short texts and tuned to recognize errors that are now uncommon, such as object misidentification. In contrast, long texts require sensitivity to attribute and relation attachments and scores that localize errors to particular text spans. In this work, we introduce PoSh, a metric for detailed image description that uses scene graphs as structured rubrics to guide LLMs-as-a-Judge, producing aggregate scores grounded in fine-grained errors (e.g. mistakes in compositional understanding). PoSh is replicable, interpretable and a better proxy for human raters than existing metrics (including GPT4o-as-a-Judge). To validate PoSh, we introduce a challenging new dataset, DOCENT. This novel benchmark contains artwork, paired with expert-written references, and model-generated descriptions, augmented with granular and coarse judgments of their quality from art history students. Thus, DOCENT enables evaluating both detailed image description metrics and detailed image description itself in a challenging new domain. We show that PoSh achieves stronger correlations (+0.05 Spearman $ρ$) with the human judgments in DOCENT than the best open-weight alternatives, is robust to image type (using CapArena, an existing dataset of web imagery) and is a capable reward function, outperforming standard supervised fine-tuning. Then, using PoSh, we characterize the performance of open and closed models in describing the paintings, sketches and statues in DOCENT and find that foundation models struggle to achieve full, error-free coverage of images with rich scene dynamics, establishing a demanding new task to gauge VLM progress. Through both PoSh and DOCENT, we hope to enable advances in important areas such as assistive text generation.


翻译:尽管视觉语言模型(VLMs)在精细图像描述方面取得了进展,但评估仍是一个挑战。标准指标(如CIDEr、SPICE)是为短文本设计的,并针对识别现已不常见的错误(如对象误识别)进行了优化。相比之下,长文本需要对属性和关系描述的敏感性,以及能将错误定位到特定文本跨度的评分方法。在本研究中,我们提出了PoSh,一种用于精细图像描述的评估指标,它利用场景图作为结构化评分标准来引导LLMs-as-a-Judge,从而生成基于细粒度错误(如组合理解错误)的聚合分数。PoSh具有可复现性、可解释性,并且比现有指标(包括GPT4o-as-a-Judge)更能代表人类评分者的判断。为了验证PoSh,我们引入了一个具有挑战性的新数据集DOCENT。该新颖基准包含艺术品、专家撰写的参考描述以及模型生成的描述,并辅以艺术史学生对其质量的细粒度和粗粒度评判。因此,DOCENT能够在具有挑战性的新领域中同时评估精细图像描述指标和精细图像描述本身。我们证明,PoSh与DOCENT中人类评判的相关性(Spearman $ρ$ +0.05)优于最佳的开源权重替代方案,对图像类型具有鲁棒性(使用现有网络图像数据集CapArena进行验证),并且能作为有效的奖励函数,其表现优于标准的有监督微调方法。随后,利用PoSh,我们分析了开源和闭源模型在描述DOCENT中绘画、素描和雕塑作品时的性能,发现基础模型难以对具有丰富场景动态的图像实现完整且无错误的覆盖,这为衡量VLM进展确立了一项极具挑战性的新任务。通过PoSh和DOCENT,我们希望推动辅助文本生成等重要领域的发展。

0
下载
关闭预览

相关内容

CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
综述 | 图像配准 Image registration
计算机视觉life
19+阅读 · 2019年9月12日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
综述 | 图像配准 Image registration
计算机视觉life
19+阅读 · 2019年9月12日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员