Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment - 专知论文

会员服务 ·

0

对齐 · 视频 · 基准 · 分析 · 语言模型 ·

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

翻译：视觉语言模型跨描绘装配指令对齐的基准测试与机制分析

Zhuchenyang Liu,Yao Zhang,Yu Xiao

2D assembly diagrams are often abstract and hard to follow, creating a need for intelligent assistants that can monitor progress, detect errors, and provide step-by-step guidance. In mixed reality settings, such systems must recognize completed and ongoing steps from the camera feed and align them with the diagram instructions. Vision Language Models (VLMs) show promise for this task, but face a depiction gap because assembly diagrams and video frames share few visual features. To systematically assess this gap, we construct IKEA-Bench, a benchmark of 1,623 questions across 6 task types on 29 IKEA furniture products, and evaluate 19 VLMs (2B-38B) under three alignment strategies. Our key findings: (1) assembly instruction understanding is recoverable via text, but text simultaneously degrades diagram-to-video alignment; (2) architecture family predicts alignment accuracy more strongly than parameter count; (3) video understanding remains a hard bottleneck unaffected by strategy. A three-level mechanistic analysis further reveals that diagrams and video occupy disjoint ViT subspaces, and that adding text shifts models from visual to text-driven reasoning. These results identify visual encoding as the primary target for improving cross-depiction robustness. Project page: https://ryenhails.github.io/IKEA-Bench/

翻译：二维装配图通常具有抽象性且难以遵循，因此需要能够监控进度、检测错误并提供逐步指导的智能助手。在混合现实场景中，此类系统需从摄像头画面中识别已完成及进行中的步骤，并将其与图解指令对齐。视觉语言模型在此任务中展现出潜力，但面临描绘差异问题——装配图与视频帧之间缺乏共享视觉特征。为系统评估这一差异，我们构建了IKEA-Bench基准数据集，包含基于29款宜家家具产品的6类任务共1623道问题，并在三种对齐策略下评估了19个视觉语言模型（参数量2B-38B）。主要发现如下：(1) 装配指令理解可通过文本恢复，但文本同步削弱了图表-视频对齐能力；(2) 架构族系比参数量更能预测对齐准确率；(3) 视频理解仍是不受策略影响的硬性瓶颈。三级机制分析进一步揭示：图表与视频占据不重叠的ViT子空间，而添加文本会使模型从视觉驱动推理转向文本驱动推理。这些结果将视觉编码定位为提升跨描绘鲁棒性的主要优化目标。项目主页：https://ryenhails.github.io/IKEA-Bench/

0

相关内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

深度学习图像匹配：综述与展望

深度学习图像匹配：综述与展望

专知会员服务

18+阅读 · 2025年6月6日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

Transformer 驱动的图像分类研究进展综述

Transformer 驱动的图像分类研究进展综述

专知会员服务

55+阅读 · 2023年2月24日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

干货！南京大学吴建鑫教授《模式识别+计算机视觉简介》2022课程，附课件下载

干货！南京大学吴建鑫教授《模式识别+计算机视觉简介》2022课程，附课件下载

专知会员服务

84+阅读 · 2022年4月13日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

本周精选共读论文《计算机视觉图像分割》六篇

本周精选共读论文《计算机视觉图像分割》六篇

人工智能前沿讲习班

10+阅读 · 2019年4月1日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

Arxiv

0+阅读 · 4月19日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Arxiv

0+阅读 · 4月10日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

Arxiv

0+阅读 · 4月7日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

Arxiv

0+阅读 · 4月2日

Characterizing State Space Model and Hybrid Language Model Performance with Long Context

Arxiv

0+阅读 · 3月22日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

10+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

深度学习图像匹配：综述与展望

深度学习图像匹配：综述与展望

专知会员服务

18+阅读 · 2025年6月6日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

Transformer 驱动的图像分类研究进展综述

Transformer 驱动的图像分类研究进展综述

专知会员服务

55+阅读 · 2023年2月24日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

干货！南京大学吴建鑫教授《模式识别+计算机视觉简介》2022课程，附课件下载

干货！南京大学吴建鑫教授《模式识别+计算机视觉简介》2022课程，附课件下载

专知会员服务

84+阅读 · 2022年4月13日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

本周精选共读论文《计算机视觉图像分割》六篇

本周精选共读论文《计算机视觉图像分割》六篇

人工智能前沿讲习班

10+阅读 · 2019年4月1日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

相关论文

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

Arxiv

0+阅读 · 4月19日

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Arxiv

0+阅读 · 4月15日

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Arxiv

0+阅读 · 4月10日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

Arxiv

0+阅读 · 4月7日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

Arxiv

0+阅读 · 4月2日

Characterizing State Space Model and Hybrid Language Model Performance with Long Context

Arxiv

0+阅读 · 3月22日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员