Text-to-image (T2I) models today are capable of producing photorealistic, instruction-following images, yet they still frequently fail on prompts that require implicit world knowledge. Existing evaluation protocols either emphasize compositional alignment or rely on single-round VQA-based scoring, leaving critical dimensions such as knowledge grounding, multi-physics interactions, and auditable evidence-substantially undertested. To address these limitations, we introduce PicWorld, the first comprehensive benchmark that assesses the grasp of implicit world knowledge and physical causal reasoning of T2I models. This benchmark consists of 1,100 prompts across three core categories. To facilitate fine-grained evaluation, we propose PW-Agent, an evidence-grounded multi-agent evaluator to hierarchically assess images on their physical realism and logical consistency by decomposing prompts into verifiable visual evidence. We conduct a thorough analysis of 17 mainstream T2I models on PicWorld, illustrating that they universally exhibit a fundamental limitation in their capacity for implicit world knowledge and physical causal reasoning to varying degrees. The findings highlight the need for reasoning-aware, knowledge-integrative architectures in future T2I systems.


翻译:当前的文本到图像(T2I)模型虽能生成遵循指令的逼真图像,但在需要隐式世界知识的提示上仍常出现失误。现有评估方法或侧重于组合对齐,或依赖单轮基于视觉问答的评分,导致知识基础、多物理交互及可审计证据等关键维度未得到充分检验。为弥补这些不足,我们提出了PicWorld——首个全面评估T2I模型隐式世界知识掌握与物理因果推理能力的基准。该基准包含三大核心类别共1100个提示。为实现细粒度评估,我们设计了PW-Agent,一种基于证据的多智能体评估器,通过将提示分解为可验证的视觉证据,分层评估图像的物理真实性与逻辑一致性。我们对17个主流T2I模型在PicWorld上进行了系统分析,结果表明这些模型普遍存在不同程度的隐式世界知识与物理因果推理能力缺陷。研究结果凸显了未来T2I系统需要构建具备推理意识与知识融合能力的架构。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员