空间基准-UC：文本到图像生成中空间指令遵循的不确定性感知评估 (SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation) - 专知论文

会员服务 ·

0

基准 · 覆盖 · 指令遵循 · 不确定 · 置信度 ·

SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation

翻译：空间基准-UC：文本到图像生成中空间指令遵循的不确定性感知评估

from arxiv, 19 pages, includes figures and tables

Evaluating whether text-to-image models follow explicit spatial instructions is difficult to automate. Object detectors may miss targets or return multiple plausible detections, and simple geometric tests can become ambiguous in borderline cases. Spatial evaluation is naturally a selective prediction problem, the checker may abstain when evidence is weak and report confidence so that results can be interpreted as a risk coverage tradeoff rather than a single score. We introduce SpatialBench-UC, a small, reproducible benchmark for pairwise spatial relations. The benchmark contains 200 prompts (50 object pairs times 4 relations) grouped into 100 counterfactual pairs obtained by swapping object roles. We release a benchmark package, versioned prompts, pinned configs, per-sample checker outputs, and report tables, enabling reproducible and auditable comparisons across models. We also include a lightweight human audit used to calibrate the checker's abstention margin and confidence threshold. We evaluate three baselines, Stable Diffusion 1.5, SD 1.5 BoxDiff, and SD 1.4 GLIGEN. The checker reports pass rate and coverage as well as conditional pass rates on decided samples. The results show that grounding methods substantially improve both pass rate and coverage, while abstention remains a dominant factor due mainly to missing detections.

翻译：评估文本到图像模型是否遵循显式空间指令难以实现自动化。物体检测器可能遗漏目标或返回多个可能检测结果，而简单几何测试在边界情况下会变得模糊不清。空间评估本质上是一个选择性预测问题：当证据不足时，检查器可以弃权并报告置信度，从而使结果能够解释为风险覆盖权衡而非单一分数。我们提出SpatialBench-UC——一个用于成对空间关系的小型可复现基准。该基准包含200个提示（50个物体对×4种关系），按交换物体角色形成的100个反事实对进行分组。我们发布了基准工具包、版本化提示、固定配置、逐样本检查器输出及报告表格，支持跨模型的可复现与可审计比较。同时包含用于校准检查器弃权边界和置信度阈值的轻量级人工审核流程。我们评估了三个基线模型：Stable Diffusion 1.5、SD 1.5 BoxDiff和SD 1.4 GLIGEN。检查器报告通过率与覆盖率，以及已决策样本的条件通过率。结果表明：定位方法能显著提升通过率和覆盖率，而因检测缺失导致的弃权仍是主导因素。

0

相关内容

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

22+阅读 · 2025年11月21日

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

专知会员服务

35+阅读 · 2023年1月18日

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

空间贝叶斯方法及在空气质量及其健康效果评估中的运用

国家自然科学基金

0+阅读 · 2014年12月31日

Generation of Uncertainty-Aware High-Level Spatial Concepts in Factorized 3D Scene Graphs via Graph Neural Networks

Arxiv

0+阅读 · 2月15日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Uncertainty-aware Generative Recommendation

Arxiv

0+阅读 · 2月12日

DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment

Arxiv

0+阅读 · 2月10日

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Arxiv

0+阅读 · 2月7日

Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction

Arxiv

0+阅读 · 2月2日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Arxiv

0+阅读 · 1月28日

Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video

Arxiv

0+阅读 · 1月22日

Diffusion Epistemic Uncertainty with Asymmetric Learning for Diffusion-Generated Image Detection

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

22+阅读 · 2025年11月21日

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

《通过决策分析和多目标优化增强空间域感知地面架构》美空军技术学院19页论文

专知会员服务

35+阅读 · 2023年1月18日

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

《考虑广义证据理论不完备识别框架的空战态势评估》2022西工大论文【Scientific Reports】

专知会员服务

62+阅读 · 2023年1月3日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

相关论文

Generation of Uncertainty-Aware High-Level Spatial Concepts in Factorized 3D Scene Graphs via Graph Neural Networks

Arxiv

0+阅读 · 2月15日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Uncertainty-aware Generative Recommendation

Arxiv

0+阅读 · 2月12日

DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment

Arxiv

0+阅读 · 2月10日

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Arxiv

0+阅读 · 2月7日

Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction

Arxiv

0+阅读 · 2月2日

SpatialViz-Bench: A Cognitively-Grounded Benchmark for Diagnosing Spatial Visualization in MLLMs

Arxiv

0+阅读 · 2月2日

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Arxiv

0+阅读 · 1月28日

Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video

Arxiv

0+阅读 · 1月22日

Diffusion Epistemic Uncertainty with Asymmetric Learning for Diffusion-Generated Image Detection

Arxiv

0+阅读 · 1月21日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

空间贝叶斯方法及在空气质量及其健康效果评估中的运用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员