MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans - 专知论文

会员服务 ·

0

基准 · 基准测试 · 图像生成 · 包含 · 样本 ·

MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans

翻译：MultiHuman-Testbench：多人图像生成的基准测试

Shubhankar Borse,Seokeon Choi,Sunghyun Park,Jeongho Kim,Shreya Kadambi,Risheek Garrepalli,Sungrack Yun,Munawar Hayat,Fatih Porikli

from arxiv, Accepted at the NeurIPS 2025 D&B Track

Generation of images containing multiple humans, performing complex actions, while preserving their facial identities, is a significant challenge. A major factor contributing to this is the lack of a dedicated benchmark. To address this, we introduce MultiHuman-Testbench, a novel benchmark for rigorously evaluating generative models for multi-human generation. The benchmark comprises 1,800 samples, including carefully curated text prompts, describing a range of simple to complex human actions. These prompts are matched with a total of 5,550 unique human face images, sampled uniformly to ensure diversity across age, ethnic background, and gender. Alongside captions, we provide human-selected pose conditioning images which accurately match the prompt. We propose a multi-faceted evaluation suite employing four key metrics to quantify face count, ID similarity, prompt alignment, and action detection. We conduct a thorough evaluation of a diverse set of models, including zero-shot approaches and training-based methods, with and without regional priors. We also propose novel techniques to incorporate image and region isolation using human segmentation and Hungarian matching, significantly improving ID similarity. Our proposed benchmark and key findings provide valuable insights and a standardized tool for advancing research in multi-human image generation. The dataset and evaluation codes will be available at https://github.com/Qualcomm-AI-research/MultiHuman-Testbench.

翻译：生成包含多个执行复杂动作且能保持其面部身份的人体图像是一项重大挑战。造成这一挑战的主要因素之一是缺乏专门的基准测试。为此，我们引入了MultiHuman-Testbench，这是一个用于严格评估多人图像生成模型的新型基准。该基准包含1800个样本，其中包括精心策划的文本提示，这些提示描述了一系列从简单到复杂的人类动作。这些提示与总共5550张独特的人脸图像相匹配，这些图像经过均匀采样以确保在年龄、种族背景和性别方面的多样性。除了描述文字，我们还提供了人工选择的、与提示精确匹配的姿态条件图像。我们提出了一个多方面的评估套件，采用四个关键指标来量化人脸数量、身份相似性、提示对齐度和动作检测。我们对一系列多样化模型进行了全面评估，包括零样本方法和基于训练的方法，无论是否使用区域先验。我们还提出了利用人体分割和匈牙利匹配来结合图像与区域隔离的新技术，显著提高了身份相似性。我们提出的基准和关键发现为推进多人图像生成研究提供了宝贵的见解和标准化工具。数据集和评估代码将在https://github.com/Qualcomm-AI-research/MultiHuman-Testbench 上提供。

0

相关内容

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

最新！《信息技术生物特征识别人脸识别系统测试方法》国家标准意见稿发布

最新！《信息技术生物特征识别人脸识别系统测试方法》国家标准意见稿发布

专知会员服务

33+阅读 · 2022年4月11日

【开放书】《数字人脸操作与检测手册》，481pdf，Handbook of Digital Face Manipulationand Detection

【开放书】《数字人脸操作与检测手册》，481pdf，Handbook of Digital Face Manipulationand Detection

专知会员服务

22+阅读 · 2022年3月24日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

人脸静默活体检测最新综述

人脸静默活体检测最新综述

PaperWeekly

14+阅读 · 2020年8月9日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

人脸专集3 | 人脸关键点检测（下）—文末源码

人脸专集3 | 人脸关键点检测（下）—文末源码

计算机视觉战队

19+阅读 · 2019年4月8日

人脸检测库：libfacedetection

人脸检测库：libfacedetection

Python程序员

15+阅读 · 2019年3月22日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

【深度】行人检测算法

【深度】行人检测算法

GAN生成式对抗网络

29+阅读 · 2018年6月3日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

FaceQSORT: a Multi-Face Tracking Method based on Biometric and Appearance Features

Arxiv

0+阅读 · 2月12日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Arxiv

0+阅读 · 2月9日

mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale

Arxiv

0+阅读 · 2月7日

MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models

Arxiv

0+阅读 · 2月4日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception

Arxiv

0+阅读 · 1月26日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection

Arxiv

0+阅读 · 1月23日

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

最新！《信息技术生物特征识别人脸识别系统测试方法》国家标准意见稿发布

最新！《信息技术生物特征识别人脸识别系统测试方法》国家标准意见稿发布

专知会员服务

33+阅读 · 2022年4月11日

【开放书】《数字人脸操作与检测手册》，481pdf，Handbook of Digital Face Manipulationand Detection

【开放书】《数字人脸操作与检测手册》，481pdf，Handbook of Digital Face Manipulationand Detection

专知会员服务

22+阅读 · 2022年3月24日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

人脸静默活体检测最新综述

人脸静默活体检测最新综述

PaperWeekly

14+阅读 · 2020年8月9日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

人脸专集3 | 人脸关键点检测（下）—文末源码

人脸专集3 | 人脸关键点检测（下）—文末源码

计算机视觉战队

19+阅读 · 2019年4月8日

人脸检测库：libfacedetection

人脸检测库：libfacedetection

Python程序员

15+阅读 · 2019年3月22日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

【深度】行人检测算法

【深度】行人检测算法

GAN生成式对抗网络

29+阅读 · 2018年6月3日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

相关论文

FaceQSORT: a Multi-Face Tracking Method based on Biometric and Appearance Features

Arxiv

0+阅读 · 2月12日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Arxiv

0+阅读 · 2月9日

mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale

Arxiv

0+阅读 · 2月7日

MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models

Arxiv

0+阅读 · 2月4日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception

Arxiv

0+阅读 · 1月26日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection

Arxiv

0+阅读 · 1月23日

TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

Arxiv

0+阅读 · 1月20日

相关基金

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员