生成具有丰富推理链的叙事图像 (Generating Storytelling Images with Rich Chains-of-Reasoning) - 专知论文

会员服务 ·

0

语言模型 · 关联 · 多层次 · 筛查 · 构建 ·

Generating Storytelling Images with Rich Chains-of-Reasoning

翻译：生成具有丰富推理链的叙事图像

Xiujie Song,Qi Jia,Shota Watanabe,Xiaoyi Pang,Ruijie Chen,Mengyue Wu,Kenny Q. Zhu

A single image can convey a compelling story through logically connected visual clues, forming Chains-of-Reasoning (CoRs). We define these semantically rich images as Storytelling Images. By conveying multi-layered information that inspires active interpretation, these images enable a wide range of applications, such as illustration and cognitive screening. Despite their potential, such images are scarce and complex to create. To address this, we introduce the Storytelling Image Generation task and propose StorytellingPainter, a two-stage pipeline combining the reasoning of Large Language Models (LLMs) with Text-to-Image (T2I) synthesis. We also develop a dedicated evaluation framework assessing semantic complexity, diversity, and text-image alignment. Furthermore, given the critical role of story generation in the task, we introduce lightweight Mini-Storytellers to bridge the performance gap between small-scale and proprietary LLMs. Experimental results demonstrate the feasibility of our approaches.

翻译：单张图像可通过逻辑关联的视觉线索传达引人入胜的故事，形成推理链（CoRs）。我们将这类语义丰富的图像定义为叙事图像。通过传递激发主动解读的多层次信息，此类图像可实现插画创作、认知筛查等广泛的应用场景。尽管潜力巨大，此类图像目前稀缺且创作复杂。为此，我们提出叙事图像生成任务，并构建StorytellingPainter——一个融合大语言模型（LLMs）推理能力与文本到图像（T2I）合成的两阶段框架。同时开发了专门评估体系，用于衡量语义复杂性、多样性及图文对齐度。鉴于故事生成在本任务中的关键作用，我们进一步引入轻量级Mini-Storytellers模型，以弥合小规模模型与专有大语言模型之间的性能差距。实验结果验证了所提方法的可行性。

0

相关内容

语言模型

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

《潜在推理综述》

《潜在推理综述》

专知会员服务

21+阅读 · 2025年7月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

60+阅读 · 2025年3月23日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

神经图推理:满足图数据库的复杂逻辑查询回答

神经图推理:满足图数据库的复杂逻辑查询回答

专知会员服务

16+阅读 · 2023年4月3日

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

专知会员服务

106+阅读 · 2022年12月14日

知识图谱可解释推理研究综述

知识图谱可解释推理研究综述

专知会员服务

178+阅读 · 2021年12月31日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知

25+阅读 · 2020年8月6日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于几何形状的彩色纹理分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

Accelerating Structured Chain-of-Thought in Autonomous Vehicles

Arxiv

0+阅读 · 2月2日

Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

Arxiv

0+阅读 · 2月2日

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Arxiv

0+阅读 · 2月2日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Arxiv

0+阅读 · 1月27日

From Chains to DAGs: Probing the Graph Structure of Reasoning in LLMs

Arxiv

0+阅读 · 1月24日

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Arxiv

0+阅读 · 1月22日

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

《潜在推理综述》

《潜在推理综述》

专知会员服务

21+阅读 · 2025年7月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

60+阅读 · 2025年3月23日

AI进入推理模型时代，一文带你读懂思维链

AI进入推理模型时代，一文带你读懂思维链

专知会员服务

39+阅读 · 2025年3月17日

神经图推理:满足图数据库的复杂逻辑查询回答

神经图推理:满足图数据库的复杂逻辑查询回答

专知会员服务

16+阅读 · 2023年4月3日

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

时序多模态知识图谱如何推理？国防科大最新《知识图谱推理:静态、时序和多模态》综述论文，全面阐述知识图谱推理技术进展

专知会员服务

106+阅读 · 2022年12月14日

知识图谱可解释推理研究综述

知识图谱可解释推理研究综述

专知会员服务

178+阅读 · 2021年12月31日

事件图谱的构建、推理与应用

专知会员服务

129+阅读 · 2021年6月12日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

事件知识图谱构建技术与应用综述

事件知识图谱构建技术与应用综述

专知

25+阅读 · 2020年8月6日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

【论文推荐】最新七篇图像描述生成相关论文—CNN+CNN、对抗样本、显著性和上下文注意力、条件生成对抗网络、风格化

专知

25+阅读 · 2018年5月28日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

Accelerating Structured Chain-of-Thought in Autonomous Vehicles

Arxiv

0+阅读 · 2月2日

Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling

Arxiv

0+阅读 · 2月2日

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

Arxiv

0+阅读 · 2月2日

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Arxiv

0+阅读 · 1月30日

ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model

Arxiv

0+阅读 · 1月30日

Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics

Arxiv

0+阅读 · 1月29日

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Arxiv

0+阅读 · 1月27日

From Chains to DAGs: Probing the Graph Structure of Reasoning in LLMs

Arxiv

0+阅读 · 1月24日

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Arxiv

0+阅读 · 1月22日

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

Arxiv

0+阅读 · 1月21日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于几何形状的彩色纹理分析方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员