PowerPoint presentations combine rich textual content with structured visual layouts, making them a natural testbed for evaluating the multimodal reasoning and layout understanding abilities of modern MLLMs. However, existing benchmarks focus solely on narrow subtasks while overlooking layout-centric challenges, which are central to real-world slide creation and editing. To bridge this gap, we introduce PPTBench, a comprehensive multimodal benchmark for evaluating LLMs on PowerPoint-related tasks. Leveraging a diverse source of 958 PPTX files, PPTBench evaluates models across four categories with 4,439 samples, including Detection, Understanding, Modification, and Generation. Our experiments reveal a substantial gap between semantic understanding and visual-layout reasoning in current MLLMs: models can interpret slide content but fail to produce coherent spatial arrangements. Ablation and further analysis show that current MLLMs struggle to combine visual cues with JSON-based layout structures and fail to integrate visual information into their API planning ability. And case studies visually expose systematic layout errors such as misalignment and element overlap. These findings provides a new perspective on evaluating VLLMs in PPT scenarios, highlighting challenges and directions for future research on visual-structural reasoning and coherent slide generation. All datasets and code are fully released to support reproducibility and future research.


翻译:PowerPoint演示文稿融合了丰富的文本内容与结构化的视觉布局,使其成为评估现代多模态大语言模型(MLLMs)多模态推理与布局理解能力的天然测试平台。然而,现有基准仅关注狭窄的子任务,忽视了以布局为核心的实际幻灯片创建与编辑中的关键挑战。为弥补这一空白,我们提出了PPTBench,一个用于评估大语言模型在PowerPoint相关任务上的综合性多模态基准。基于958个PPTX文件的多样化来源,PPTBench通过4,439个样本在四个类别上评估模型,包括检测、理解、修改与生成。我们的实验揭示了当前MLLMs在语义理解与视觉布局推理之间存在显著差距:模型能够解析幻灯片内容,但无法生成连贯的空间排列。消融与进一步分析表明,当前MLLMs难以将视觉线索与基于JSON的布局结构相结合,且未能将视觉信息整合到其API规划能力中。案例研究直观地暴露了系统性布局错误,如错位与元素重叠。这些发现为在PPT场景中评估视觉语言模型(VLLMs)提供了新视角,突显了视觉结构推理与连贯幻灯片生成未来研究的挑战与方向。所有数据集与代码均已完全公开,以支持可复现性与未来研究。

0
下载
关闭预览

相关内容

微软公司的演示文稿软件,用户可以在投影仪或者计算机上进行演示。
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员