A single image can convey a compelling story through logically connected visual clues, forming Chains-of-Reasoning (CoRs). We define these semantically rich images as Storytelling Images. By conveying multi-layered information that inspires active interpretation, these images enable a wide range of applications, such as illustration and cognitive screening. Despite their potential, such images are scarce and complex to create. To address this, we introduce the Storytelling Image Generation task and propose StorytellingPainter, a two-stage pipeline combining the reasoning of Large Language Models (LLMs) with Text-to-Image (T2I) synthesis. We also develop a dedicated evaluation framework assessing semantic complexity, diversity, and text-image alignment. Furthermore, given the critical role of story generation in the task, we introduce lightweight Mini-Storytellers to bridge the performance gap between small-scale and proprietary LLMs. Experimental results demonstrate the feasibility of our approaches.


翻译:单张图像可通过逻辑关联的视觉线索传达引人入胜的故事,形成推理链(CoRs)。我们将这类语义丰富的图像定义为叙事图像。通过传递激发主动解读的多层次信息,此类图像可实现插画创作、认知筛查等广泛的应用场景。尽管潜力巨大,此类图像目前稀缺且创作复杂。为此,我们提出叙事图像生成任务,并构建StorytellingPainter——一个融合大语言模型(LLMs)推理能力与文本到图像(T2I)合成的两阶段框架。同时开发了专门评估体系,用于衡量语义复杂性、多样性及图文对齐度。鉴于故事生成在本任务中的关键作用,我们进一步引入轻量级Mini-Storytellers模型,以弥合小规模模型与专有大语言模型之间的性能差距。实验结果验证了所提方法的可行性。

0
下载
关闭预览

相关内容

【AAAI2026】无限叙事:免训练的角色一致性文生图技术
专知会员服务
8+阅读 · 2025年11月18日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
48+阅读 · 2020年12月26日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【AAAI2026】无限叙事:免训练的角色一致性文生图技术
专知会员服务
8+阅读 · 2025年11月18日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
48+阅读 · 2020年12月26日
相关资讯
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员