Large Vision Language Models (VLMs) excel at visual question answering and semantic grounding, but their capacity for autonomous logical reasoning remains underexplored. Existing anomaly benchmarks emphasize visual errors or direct prompting rather than the physical and social common sense needed for open-world deployment. To address this, we introduce LAD-bench, a benchmark of more than 1,000 curated synthetic images with logical anomalies across four domains: Residential, Urban, Collaborative, and Nature. We further propose a Tiered Prompting Protocol based on progressive disclosure, which measures how much explicit assistance a model needs to localize and reason about a logical fault. Evaluating leading foundation models reveals substantial weaknesses: even the best achieves only 70.11% overall accuracy, showing that implicit logical fault detection remains unsolved. Crucially, models often fail to identify anomalies even after receiving explicit hints in deeper tiers. By surfacing these limitations in sequential multimodal reasoning, LAD-Bench offers a rigorous framework for advancing the safety, reliability, and cognitive alignment of autonomous visual systems. Dataset and Code: https://huggingface.co/datasets/SahasraK/LADBench


翻译:大型视觉语言模型在视觉问答和语义定位方面表现出色,但其自主逻辑推理能力仍未充分探索。现有异常检测基准侧重于视觉错误或直接提示,而非开放世界部署所需的物理与社会常识。为解决此问题,我们提出LAD-bench,一个包含1000余张精心合成的逻辑异常图像的基准,涵盖住宅、城市、协作和自然四个领域。我们进一步提出基于渐进式揭示的分层提示协议,用于衡量模型在定位和推理逻辑故障时所需显式辅助的程度。对主流基础模型的评估揭示了显著缺陷:即使最优模型总体准确率也仅达70.11%,表明隐式逻辑故障检测问题仍未解决。关键的是,模型即使在深层提示获得显式线索后仍常无法识别异常。通过揭示多模态顺序推理中的这些局限,LAD-Bench为提升自主视觉系统的安全性、可靠性和认知对齐提供了严格框架。数据集与代码:https://huggingface.co/datasets/SahasraK/LADBench

0
下载
关闭预览

相关内容

异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员