Story-Iter: A Training-free Iterative Paradigm for Long Story Visualization - 专知论文

会员服务 ·

0

构建 · 序列 · 一致 · 细粒度 · 粒度 ·

Story-Iter: A Training-free Iterative Paradigm for Long Story Visualization

翻译：Story-Iter：一种用于长故事可视化的免训练迭代范式

Jiawei Mao,Xiaoke Huang,Yunfei Xie,Yuanqi Chang,Mude Hui,Bingjie Xu,Zeyu Zheng,Zirui Wang,Cihang Xie,Yuyin Zhou

from arxiv, 31 pages, 33 figures, The project page and associated code can be accessed via https://jwmao1.github.io/storyiter/

This paper introduces Story-Iter, a new training-free iterative paradigm to enhance long-story generation. Unlike existing methods that rely on fixed reference images to construct a complete story, our approach features a novel external iterative paradigm, extending beyond the internal iterative denoising steps of diffusion models, to continuously refine each generated image by incorporating all reference images from the previous round. To achieve this, we propose a plug-and-play, training-free global reference cross-attention (GRCA) module, modeling all reference frames with global embeddings, ensuring semantic consistency in long sequences. By progressively incorporating holistic visual context and text constraints, our iterative paradigm enables precise generation with fine-grained interactions, optimizing the story visualization step-by-step. Extensive experiments in the official story visualization dataset and our long story benchmark demonstrate that Story-Iter's state-of-the-art performance in long-story visualization (up to 100 frames) excels in both semantic consistency and fine-grained interactions.

翻译：本文介绍了Story-Iter，一种用于增强长故事生成的免训练迭代新范式。与现有方法依赖固定参考图像来构建完整故事不同，我们的方法采用了一种新颖的外部迭代范式，它超越了扩散模型内部的迭代去噪步骤，通过整合前一轮生成的所有参考图像来持续优化每一张生成的图像。为此，我们提出了一种即插即用、无需训练的全局参考交叉注意力模块，该模块使用全局嵌入对所有参考帧进行建模，确保了长序列中的语义一致性。通过逐步融入整体视觉上下文和文本约束，我们的迭代范式能够实现具有细粒度交互的精确生成，从而逐步优化故事可视化。在官方故事可视化数据集及我们构建的长故事基准上的大量实验表明，Story-Iter在长故事可视化任务中取得了最先进的性能，在长达100帧的序列中，其在语义一致性和细粒度交互方面均表现优异。

0

相关内容

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

专知会员服务

15+阅读 · 4月5日

【AAAI2026】无限叙事：免训练的角色一致性文生图技术

【AAAI2026】无限叙事：免训练的角色一致性文生图技术

专知会员服务

8+阅读 · 2025年11月18日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

专知会员服务

29+阅读 · 2025年10月2日

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

专知会员服务

13+阅读 · 2025年8月13日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

【AAAI2020】知识增强的视觉故事，Knowledge-Enriched Visual Storytelling，科罗拉多大学博德分校| Chao Chun Hsu，中国科学院博士| Lun-Wei Ku

【AAAI2020】知识增强的视觉故事，Knowledge-Enriched Visual Storytelling，科罗拉多大学博德分校| Chao Chun Hsu，中国科学院博士| Lun-Wei Ku

专知会员服务

26+阅读 · 2019年12月5日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

PREFINE: Personalized Story Generation via Simulated User Critics and User-Specific Rubric Generation

Arxiv

0+阅读 · 3月17日

InfoAlign: A Human-AI Co-Creation System for Storytelling with Infographics

Arxiv

0+阅读 · 2月26日

StoryLensEdu: Personalized Learning Report Generation through Narrative-Driven Multi-Agent Systems

Arxiv

0+阅读 · 2月19日

Exploring LLMs for User Story Extraction from Mockups

Arxiv

0+阅读 · 2月19日

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

StoryBox: Collaborative Multi-Agent Simulation for Hybrid Bottom-Up Long-Form Story Generation Using Large Language Models

Arxiv

0+阅读 · 2月7日

Storycaster: An AI System for Immersive Room-Based Storytelling

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

DiaryPlay: AI-Assisted Authoring of Interactive Vignettes for Everyday Storytelling

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

0+阅读 · 29分钟前

多智能体协作机制

多智能体协作机制

专知会员服务

0+阅读 · 33分钟前

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

相关VIP内容

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

专知会员服务

15+阅读 · 4月5日

【AAAI2026】无限叙事：免训练的角色一致性文生图技术

【AAAI2026】无限叙事：免训练的角色一致性文生图技术

专知会员服务

8+阅读 · 2025年11月18日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

《以任务为中心的建模未来：将集成数字成熟度路径与用户故事框架融入任务工程》最新文献

专知会员服务

29+阅读 · 2025年10月2日

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

专知会员服务

13+阅读 · 2025年8月13日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

【AAAI2020】知识增强的视觉故事，Knowledge-Enriched Visual Storytelling，科罗拉多大学博德分校| Chao Chun Hsu，中国科学院博士| Lun-Wei Ku

【AAAI2020】知识增强的视觉故事，Knowledge-Enriched Visual Storytelling，科罗拉多大学博德分校| Chao Chun Hsu，中国科学院博士| Lun-Wei Ku

专知会员服务

26+阅读 · 2019年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

相关论文

PREFINE: Personalized Story Generation via Simulated User Critics and User-Specific Rubric Generation

Arxiv

0+阅读 · 3月17日

InfoAlign: A Human-AI Co-Creation System for Storytelling with Infographics

Arxiv

0+阅读 · 2月26日

StoryLensEdu: Personalized Learning Report Generation through Narrative-Driven Multi-Agent Systems

Arxiv

0+阅读 · 2月19日

Exploring LLMs for User Story Extraction from Mockups

Arxiv

0+阅读 · 2月19日

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

StoryBox: Collaborative Multi-Agent Simulation for Hybrid Bottom-Up Long-Form Story Generation Using Large Language Models

Arxiv

0+阅读 · 2月7日

Storycaster: An AI System for Immersive Room-Based Storytelling

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

DiaryPlay: AI-Assisted Authoring of Interactive Vignettes for Everyday Storytelling

Arxiv

0+阅读 · 2月4日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员