R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment - 专知论文

会员服务 ·

0

CVPR 2022 · 质量评估 · 语言模型 · 视觉语言模型 · 数据集 ·

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

翻译：基于检索的视觉语言模型在计算机图形图像质量评估中的应用：R4-CGQA

Zhuangzi Li,Jian Jin,Shilv Cai,Weisi Lin

Immersive Computer Graphics (CGs) rendering has become ubiquitous in modern daily life. However, comprehensively evaluating CG quality remains challenging for two reasons: First, existing CG datasets lack systematic descriptions of rendering quality; and second existing CG quality assessment methods cannot provide reasonable text-based explanations. To address these issues, we first identify six key perceptual dimensions of CG quality from the user perspective and construct a dataset of 3500 CG images with corresponding quality descriptions. Each description covers CG style, content, and perceived quality along the selected dimensions. Furthermore, we use a subset of the dataset to build several question-answer benchmarks based on the descriptions in order to evaluate the responses of existing Vision Language Models (VLMs). We find that current VLMs are not sufficiently accurate in judging fine-grained CG quality, but that descriptions of visually similar images can significantly improve a VLM's understanding of a given CG image. Motivated by this observation, we adopt retrieval-augmented generation and propose a two-stream retrieval framework that effectively enhances the CG quality assessment capabilities of VLMs. Experiments on several representative VLMs demonstrate that our method substantially improves their performance on CG quality assessment.

翻译：沉浸式计算机图形渲染在现代日常生活中已无处不在。然而，全面评估计算机图形质量仍面临两大挑战：首先，现有计算机图形数据集缺乏对渲染质量的系统性描述；其次，现有计算机图形质量评估方法无法提供合理的基于文本的解释。为解决这些问题，我们首先从用户视角识别出计算机图形质量的六个关键感知维度，并构建了一个包含3500张计算机图形图像及对应质量描述的数据集。每条描述均涵盖计算机图形的风格、内容以及在选定维度上的感知质量。此外，我们利用数据集的子集，基于这些描述构建了若干问答基准，以评估现有视觉语言模型的响应能力。我们发现，当前视觉语言模型在判断细粒度计算机图形质量方面准确性不足，但视觉相似图像的描述能显著提升视觉语言模型对给定计算机图形图像的理解。受此观察启发，我们采用检索增强生成技术，提出了一种双流检索框架，有效增强了视觉语言模型的计算机图形质量评估能力。在多个代表性视觉语言模型上的实验表明，我们的方法显著提升了它们在计算机图形质量评估任务上的性能。

0

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

专知会员服务

33+阅读 · 2024年3月4日

图像与视频质量评价综述

专知会员服务

34+阅读 · 2021年9月29日

无参考图像质量评价研究进展

无参考图像质量评价研究进展

专知会员服务

31+阅读 · 2021年2月14日

【经典书】计算机图形学数学结构，411页pdf，Mathematical Structures for CG

【经典书】计算机图形学数学结构，411页pdf，Mathematical Structures for CG

专知会员服务

93+阅读 · 2020年5月13日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图嵌入：问题、技术与应用综述（ A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications）

【图机器学习论文】图嵌入：问题、技术与应用综述（ A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications）

专知会员服务

52+阅读 · 2019年12月16日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

人脸专集5 | 最新的图像质量评价

人脸专集5 | 最新的图像质量评价

计算机视觉战队

27+阅读 · 2019年4月13日

CVPR 2019 | 无监督领域特定单图像去模糊

CVPR 2019 | 无监督领域特定单图像去模糊

PaperWeekly

14+阅读 · 2019年3月20日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【干货】计算机视觉实战系列01——用Python做图像处理

【干货】计算机视觉实战系列01——用Python做图像处理

专知

12+阅读 · 2018年3月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Arxiv

0+阅读 · 3月7日

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Arxiv

0+阅读 · 2月24日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Arxiv

0+阅读 · 2月20日

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Arxiv

0+阅读 · 2月19日

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Arxiv

0+阅读 · 2月14日

AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models

Arxiv

0+阅读 · 2月6日

WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

视觉语言模型

最新内容

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

2+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

0+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

1+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

0+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

1+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

6+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

11+阅读 · 4月21日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

《图语言模型》最新教程，WSDM2024桥接文本数据和图形数据:走向语义和结构感知的知识发现

专知会员服务

33+阅读 · 2024年3月4日

图像与视频质量评价综述

专知会员服务

34+阅读 · 2021年9月29日

无参考图像质量评价研究进展

无参考图像质量评价研究进展

专知会员服务

31+阅读 · 2021年2月14日

【经典书】计算机图形学数学结构，411页pdf，Mathematical Structures for CG

【经典书】计算机图形学数学结构，411页pdf，Mathematical Structures for CG

专知会员服务

93+阅读 · 2020年5月13日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图嵌入：问题、技术与应用综述（ A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications）

【图机器学习论文】图嵌入：问题、技术与应用综述（ A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications）

专知会员服务

52+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能即服务与未来战争（印度视角）

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

相关资讯

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

人脸专集5 | 最新的图像质量评价

人脸专集5 | 最新的图像质量评价

计算机视觉战队

27+阅读 · 2019年4月13日

CVPR 2019 | 无监督领域特定单图像去模糊

CVPR 2019 | 无监督领域特定单图像去模糊

PaperWeekly

14+阅读 · 2019年3月20日

无参考图像质量评价研究进展综述

无参考图像质量评价研究进展综述

人工智能前沿讲习班

47+阅读 · 2019年2月15日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【干货】计算机视觉实战系列01——用Python做图像处理

【干货】计算机视觉实战系列01——用Python做图像处理

专知

12+阅读 · 2018年3月7日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Arxiv

0+阅读 · 3月7日

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Arxiv

0+阅读 · 2月24日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Arxiv

0+阅读 · 2月20日

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Arxiv

0+阅读 · 2月19日

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Arxiv

0+阅读 · 2月14日

AR as an Evaluation Playground: Bridging Metrics and Visual Perception of Computer Vision Models

Arxiv

0+阅读 · 2月6日

WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

Arxiv

0+阅读 · 2月4日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员