2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/


翻译:二维装配图通常具有抽象性且难以遵循,因此需要能够监控进度、检测错误并提供逐步指导的智能助手。在混合现实场景中,此类系统需从摄像头画面中识别已完成及进行中的步骤,并将其与图解指令对齐。视觉语言模型在此任务中展现出潜力,但面临描绘差异问题——装配图与视频帧之间缺乏共享视觉特征。为系统评估这一差异,我们构建了IKEA-Bench基准数据集,包含基于29款宜家家具产品的6类任务共1623道问题,并在三种对齐策略下评估了19个视觉语言模型(参数量2B-38B)。主要发现如下:(1) 装配指令理解可通过文本恢复,但文本同步削弱了图表-视频对齐能力;(2) 架构族系比参数量更能预测对齐准确率;(3) 视频理解仍是不受策略影响的硬性瓶颈。三级机制分析进一步揭示:图表与视频占据不重叠的ViT子空间,而添加文本会使模型从视觉驱动推理转向文本驱动推理。这些结果将视觉编码定位为提升跨描绘鲁棒性的主要优化目标。项目主页:https://ryenhails.github.io/IKEA-Bench/

0
下载
关闭预览

相关内容

深度学习图像匹配:综述与展望
专知会员服务
18+阅读 · 2025年6月6日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
Transformer 驱动的图像分类研究进展综述
专知会员服务
55+阅读 · 2023年2月24日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
本周精选共读论文《计算机视觉图像分割》六篇
人工智能前沿讲习班
10+阅读 · 2019年4月1日
干货|全景视频拼接的关键技术分析
全球人工智能
13+阅读 · 2017年7月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员