GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks? - 专知论文

会员服务 ·

0

视觉生成 · 对齐 · 成对比较 · 视觉生成模型 · 生成模型 ·

GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?

翻译：GenArena：如何实现视觉生成任务的人类对齐评估？

Ruihang Li,Leigang Qu,Jingxu Zhang,Dongnan Gui,Mengde Xu,Xiaosong Zhang,Han Hu,Wenjie Wang,Jiaqi Wang

from arxiv, Project Page: https://genarena.github.io/, Code: https://github.com/ruihanglix/genarena

The rapid advancement of visual generation models has outpaced traditional evaluation approaches, necessitating the adoption of Vision-Language Models as surrogate judges. In this work, we systematically investigate the reliability of the prevailing absolute pointwise scoring standard, across a wide spectrum of visual generation tasks. Our analysis reveals that this paradigm is limited due to stochastic inconsistency and poor alignment with human perception. To resolve these limitations, we introduce GenArena, a unified evaluation framework that leverages a pairwise comparison paradigm to ensure stable and human-aligned evaluation. Crucially, our experiments uncover a transformative finding that simply adopting this pairwise protocol enables off-the-shelf open-source models to outperform top-tier proprietary models. Notably, our method boosts evaluation accuracy by over 20% and achieves a Spearman correlation of 0.86 with the authoritative LMArena leaderboard, drastically surpassing the 0.36 correlation of pointwise methods. Based on GenArena, we benchmark state-of-the-art visual generation models across diverse tasks, providing the community with a rigorous and automated evaluation standard for visual generation.

翻译：视觉生成模型的快速发展已超越传统评估方法，亟需采用视觉-语言模型作为代理评估者。本研究系统性地考察了主流绝对逐点评分标准在广泛视觉生成任务中的可靠性。分析表明，该范式因随机不一致性及与人类感知对齐性差而存在局限。为解决这些问题，我们提出GenArena——一个通过成对比较范式确保稳定且人类对齐评估的统一框架。关键发现表明，仅采用这种成对比较协议即可使现成的开源模型超越顶级专有模型。值得注意的是，该方法将评估准确率提升超过20%，与权威LMArena排行榜的斯皮尔曼相关系数达0.86，显著超越逐点方法0.36的相关性。基于GenArena，我们在多样化任务中对前沿视觉生成模型进行基准测试，为学界提供了严谨且自动化的视觉生成评估标准。

0

相关内容

视觉生成

【NTU博士论文】视频生成新突破：从人脸说话视频到通用视频制作

【NTU博士论文】视频生成新突破：从人脸说话视频到通用视频制作

专知会员服务

16+阅读 · 1月15日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

23+阅读 · 2025年4月15日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

41+阅读 · 2024年6月8日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

48+阅读 · 2023年9月20日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

深度对抗视觉生成综述

专知会员服务

56+阅读 · 2021年9月3日

生成式对抗网络GAN在计算机视觉中的应用概述，GANs in computer vision: Introduction to generative learning（part1）

生成式对抗网络GAN在计算机视觉中的应用概述，GANs in computer vision: Introduction to generative learning（part1）

专知会员服务

64+阅读 · 2020年4月19日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Arxiv

0+阅读 · 2月14日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Arxiv

0+阅读 · 2月12日

Chatting with Images for Introspective Visual Thinking

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

Forecasting Developer Environments with GenAI: A Research Perspective

Arxiv

0+阅读 · 2月7日

VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

视觉生成模型

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【NTU博士论文】视频生成新突破：从人脸说话视频到通用视频制作

【NTU博士论文】视频生成新突破：从人脸说话视频到通用视频制作

专知会员服务

16+阅读 · 1月15日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

23+阅读 · 2025年4月15日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

41+阅读 · 2024年6月8日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

48+阅读 · 2023年9月20日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

深度对抗视觉生成综述

专知会员服务

56+阅读 · 2021年9月3日

生成式对抗网络GAN在计算机视觉中的应用概述，GANs in computer vision: Introduction to generative learning（part1）

生成式对抗网络GAN在计算机视觉中的应用概述，GANs in computer vision: Introduction to generative learning（part1）

专知会员服务

64+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

相关论文

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment

Arxiv

0+阅读 · 2月14日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

Arxiv

0+阅读 · 2月12日

Chatting with Images for Introspective Visual Thinking

Arxiv

0+阅读 · 2月11日

Unified Personalized Reward Model for Vision Generation

Arxiv

0+阅读 · 2月10日

Forecasting Developer Environments with GenAI: A Research Perspective

Arxiv

0+阅读 · 2月7日

VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation

Arxiv

0+阅读 · 2月5日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员