Infographics are widely used to communicate information with a combination of text, icons, and data visualizations, but once exported as images their content is locked into pixels, making updates, localization, and reuse expensive. We describe \textsc{Images2Slides}, an API-based pipeline that converts a static infographic (PNG/JPG) into a native, editable Google Slides slide by extracting a region-level specification with a vision-language model (VLM), mapping pixel geometry into slide coordinates, and recreating elements using the Google Slides batch update API. The system is model-agnostic and supports multiple VLM backends via a common JSON region schema and deterministic postprocessing. On a controlled benchmark of 29 programmatically generated infographic slides with known ground-truth regions, \textsc{Images2Slides} achieves an overall element recovery rate of $0.989\pm0.057$ (text: $0.985\pm0.083$, images: $1.000\pm0.000$), with mean text transcription error $\mathrm{CER}=0.033\pm0.149$ and mean layout fidelity $\mathrm{IoU}=0.364\pm0.161$ for text regions and $0.644\pm0.131$ for image regions. We also highlight practical engineering challenges in reconstruction, including text size calibration and non-uniform backgrounds, and describe failure modes that guide future work.


翻译:信息图被广泛用于结合文本、图标和数据可视化来传达信息,但一旦导出为图像,其内容便被锁定在像素中,使得更新、本地化和重用成本高昂。我们描述了\textsc{Images2Slides},一个基于API的流程,通过使用视觉语言模型提取区域级规范,将像素几何映射到幻灯片坐标,并利用Google Slides批量更新API重新创建元素,将静态信息图(PNG/JPG)转换为原生、可编辑的Google Slides幻灯片。该系统是模型无关的,通过通用的JSON区域模式和确定性后处理支持多种VLM后端。在一个包含29个程序生成、已知真实区域的信息图幻灯片的受控基准测试中,\textsc{Images2Slides}实现了$0.989\pm0.057$的整体元素恢复率(文本:$0.985\pm0.083$,图像:$1.000\pm0.000$),文本区域的平均转录错误率$\mathrm{CER}=0.033\pm0.149$,平均布局保真度$\mathrm{IoU}=0.364\pm0.161$(文本区域)和$0.644\pm0.131$(图像区域)。我们还重点讨论了重建中的实际工程挑战,包括文本大小校准和非均匀背景,并描述了指导未来工作的失败模式。

0
下载
关闭预览

相关内容

最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
33+阅读 · 2021年1月25日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2021年1月21日
VIP会员
相关VIP内容
最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
33+阅读 · 2021年1月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员