Immersive Computer Graphics (CGs) rendering has become ubiquitous in modern daily life. However, comprehensively evaluating CG quality remains challenging for two reasons: First, existing CG datasets lack systematic descriptions of rendering quality; and second existing CG quality assessment methods cannot provide reasonable text-based explanations. To address these issues, we first identify six key perceptual dimensions of CG quality from the user perspective and construct a dataset of 3500 CG images with corresponding quality descriptions. Each description covers CG style, content, and perceived quality along the selected dimensions. Furthermore, we use a subset of the dataset to build several question-answer benchmarks based on the descriptions in order to evaluate the responses of existing Vision Language Models (VLMs). We find that current VLMs are not sufficiently accurate in judging fine-grained CG quality, but that descriptions of visually similar images can significantly improve a VLM's understanding of a given CG image. Motivated by this observation, we adopt retrieval-augmented generation and propose a two-stream retrieval framework that effectively enhances the CG quality assessment capabilities of VLMs. Experiments on several representative VLMs demonstrate that our method substantially improves their performance on CG quality assessment.


翻译:沉浸式计算机图形渲染在现代日常生活中已无处不在。然而,全面评估计算机图形质量仍面临两大挑战:首先,现有计算机图形数据集缺乏对渲染质量的系统性描述;其次,现有计算机图形质量评估方法无法提供合理的基于文本的解释。为解决这些问题,我们首先从用户视角识别出计算机图形质量的六个关键感知维度,并构建了一个包含3500张计算机图形图像及对应质量描述的数据集。每条描述均涵盖计算机图形的风格、内容以及在选定维度上的感知质量。此外,我们利用数据集的子集,基于这些描述构建了若干问答基准,以评估现有视觉语言模型的响应能力。我们发现,当前视觉语言模型在判断细粒度计算机图形质量方面准确性不足,但视觉相似图像的描述能显著提升视觉语言模型对给定计算机图形图像的理解。受此观察启发,我们采用检索增强生成技术,提出了一种双流检索框架,有效增强了视觉语言模型的计算机图形质量评估能力。在多个代表性视觉语言模型上的实验表明,我们的方法显著提升了它们在计算机图形质量评估任务上的性能。

0
下载
关闭预览

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
专知会员服务
34+阅读 · 2021年9月29日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
2+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
0+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
0+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
4+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
6+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
6+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
11+阅读 · 4月21日
相关VIP内容
相关资讯
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员