The rapid evolution of Large Language Models (LLMs) has fostered diverse paradigms for automated slide generation, ranging from code-driven layouts to image-centric synthesis. However, evaluating these heterogeneous systems remains challenging, as existing protocols often struggle to provide comparable scores across architectures or rely on uncalibrated judgments. In this paper, we introduce SlidesGen-Bench, a benchmark designed to evaluate slide generation through a lens of three core principles: universality, quantification, and reliability. First, to establish a unified evaluation framework, we ground our analysis in the visual domain, treating terminal outputs as renderings to remain agnostic to the underlying generation method. Second, we propose a computational approach that quantitatively assesses slides across three distinct dimensions - Content, Aesthetics, and Editability - offering reproducible metrics where prior works relied on subjective or reference-dependent proxies. Finally, to ensure high correlation with human preference, we construct the Slides-Align1.5k dataset, a human preference aligned dataset covering slides from nine mainstream generation systems across seven scenarios. Our experiments demonstrate that SlidesGen-Bench achieves a higher degree of alignment with human judgment than existing evaluation pipelines. Our code and data are available at https://github.com/YunqiaoYang/SlidesGen-Bench.


翻译:大型语言模型(LLM)的快速发展催生了多种自动化幻灯片生成范式,范围涵盖从代码驱动的布局到以图像为中心的合成。然而,评估这些异构系统仍然具有挑战性,因为现有评估方案通常难以提供跨架构的可比分数,或依赖于未经校准的人工判断。本文介绍了SlidesGen-Bench,这是一个旨在通过三个核心原则——普适性、量化性与可靠性——来评估幻灯片生成的基准。首先,为建立一个统一的评估框架,我们将分析建立在视觉领域,将最终输出视为渲染结果,从而对底层生成方法保持中立。其次,我们提出一种计算方法,从三个不同维度——内容、美学与可编辑性——对幻灯片进行定量评估,提供了可复现的指标,而先前工作依赖于主观或基于参考的代理指标。最后,为确保与人类偏好高度相关,我们构建了Slides-Align1.5k数据集,这是一个与人类偏好对齐的数据集,涵盖了来自七个场景下九种主流生成系统的幻灯片。我们的实验表明,与现有评估流程相比,SlidesGen-Bench实现了与人类判断更高程度的一致性。我们的代码与数据可在 https://github.com/YunqiaoYang/SlidesGen-Bench 获取。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员