GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing - 专知论文

会员服务 ·

0

基准 · 知识 · 多模 · 模态 · 约束 ·

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

翻译：GRADE：面向学科知识推理的图像编辑基准评测

Mingxin Liu,Ziqian Fan,Zhaokai Wang,Leyao Gu,Zirun Zhu,Yiguo He,Yuchen Yang,Changyao Tian,Xiangyu Zhao,Ning Liao,Shaofeng Zhang,Qibing Ren,Zhihang Zhong,Xuanhe Zhou,Junchi Yan,Xue Yang

from arxiv, 49 pages, 23 figures, 10 tables; Project Page: https://grade-bench.github.io/, Code: https://github.com/VisionXLab/GRADE, Dataset: https://huggingface.co/datasets/VisionXLab/GRADE

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

翻译：统一多模态模型旨在实现联合理解、推理与生成，但当前的图像编辑基准大多局限于自然图像和浅层常识推理，难以评估其在结构化、领域特定约束下的能力。本工作提出了首个用于评估图像编辑中学科知识与推理能力的基准——GRADE。该基准涵盖从自然科学到社会科学的10个学科领域，包含520个精心构建的样本。为支持严谨评估，我们提出一个多维度评估框架，从学科推理、视觉一致性和逻辑可读性三个维度进行综合评价。通过对20个前沿开源与闭源模型的大规模实验，我们发现当前模型在隐含、知识密集的编辑场景中存在显著局限，导致性能差距巨大。除量化评分外，我们通过系统分析与消融实验揭示了模型的不足，并明确了学科编辑任务的内在约束。GRADE为统一多模态模型的未来发展指明了关键方向，推动了学科知识驱动的图像编辑与推理研究。本基准及相关评估代码已公开发布。

0

相关内容

【CVPR2026】CARE-Edit: 面向上下文相关图像编辑的条件感知专家路由机制

【CVPR2026】CARE-Edit: 面向上下文相关图像编辑的条件感知专家路由机制

专知会员服务

6+阅读 · 3月10日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【WWW2024】GraphPro：推荐系统中的图预训练与提示学习

【WWW2024】GraphPro：推荐系统中的图预训练与提示学习

专知会员服务

23+阅读 · 2024年1月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

专知会员服务

53+阅读 · 2020年6月7日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【ACL 2019 Tutorials】基于图的含义表示:设计和处理（Graph-Based Meaning Representations: Design and Processing），Alexander Koller，Stephan Oepen，孙薇薇

【ACL 2019 Tutorials】基于图的含义表示:设计和处理（Graph-Based Meaning Representations: Design and Processing），Alexander Koller，Stephan Oepen，孙薇薇

专知会员服务

10+阅读 · 2019年11月16日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

ECCV 2020 | 一键挑出高质量图像！中科大&微软提出挑图神器：GIQA

ECCV 2020 | 一键挑出高质量图像！中科大&微软提出挑图神器：GIQA

CVer

16+阅读 · 2020年7月4日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

PolyGraph Discrepancy: a classifier-based metric for graph generation

Arxiv

0+阅读 · 3月17日

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading

Arxiv

0+阅读 · 3月12日

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Arxiv

0+阅读 · 3月9日

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Arxiv

0+阅读 · 3月3日

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Arxiv

0+阅读 · 3月1日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

15+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

【CVPR2026】CARE-Edit: 面向上下文相关图像编辑的条件感知专家路由机制

【CVPR2026】CARE-Edit: 面向上下文相关图像编辑的条件感知专家路由机制

专知会员服务

6+阅读 · 3月10日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【WWW2024】GraphPro：推荐系统中的图预训练与提示学习

【WWW2024】GraphPro：推荐系统中的图预训练与提示学习

专知会员服务

23+阅读 · 2024年1月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

【AAAI 2020】InteractE: 通过增加特征交互来改进基于卷积的知识图谱嵌入， InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature Interactions

专知会员服务

53+阅读 · 2020年6月7日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【ACL 2019 Tutorials】基于图的含义表示:设计和处理（Graph-Based Meaning Representations: Design and Processing），Alexander Koller，Stephan Oepen，孙薇薇

【ACL 2019 Tutorials】基于图的含义表示:设计和处理（Graph-Based Meaning Representations: Design and Processing），Alexander Koller，Stephan Oepen，孙薇薇

专知会员服务

10+阅读 · 2019年11月16日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

ECCV 2020 | 一键挑出高质量图像！中科大&微软提出挑图神器：GIQA

ECCV 2020 | 一键挑出高质量图像！中科大&微软提出挑图神器：GIQA

CVer

16+阅读 · 2020年7月4日

一行命令搞定图像质量评价

一行命令搞定图像质量评价

计算机视觉life

12+阅读 · 2019年12月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

相关论文

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

PolyGraph Discrepancy: a classifier-based metric for graph generation

Arxiv

0+阅读 · 3月17日

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Arxiv

0+阅读 · 3月16日

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading

Arxiv

0+阅读 · 3月12日

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Arxiv

0+阅读 · 3月9日

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Arxiv

0+阅读 · 3月3日

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

Arxiv

0+阅读 · 3月1日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月20日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员