DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior - 专知论文

会员服务 ·

0

视频 · 一致 · 合成 · 序列 · 连贯性 ·

DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior

翻译：DreamShot：基于视频扩散先验的个性化故事板合成

Junjia Huang,Binbin Yang,Pengxiang Yan,Jiyang Liu,Bin Xia,Zhao Wang,Yitong Wang,Liang Lin,Guanbin Li

from arxiv, Accepted by CVPR2026 as a Highlight paper

Storyboard synthesis plays a crucial role in visual storytelling, aiming to generate coherent shot sequences that visually narrate cinematic events with consistent characters, scenes, and transitions. However, existing approaches are mostly adapted from text-to-image diffusion models, which struggle to maintain long-range temporal coherence, consistent character identities, and narrative flow across multiple shots. In this paper, we introduce DreamShot, a video generative model based storyboard framework that fully exploits powerful video diffusion priors for controllable multi-shot synthesis. DreamShot supports both Text-to-Shot and Reference-to-Shot generation, as well as story continuation conditioned on previous frames, enabling flexible and context-aware storyboard generation. By leveraging the spatial-temporal consistency inherent in video generative models, DreamShot produces visually and semantically coherent sequences with improved narrative fidelity and character continuity. Furthermore, DreamShot incorporates a multi-reference role conditioning module that accepts multiple character reference images and enforces identity alignment via a Role-Attention Consistency Loss, explicitly constraining attention between reference and generated roles. Extensive experiments demonstrate that DreamShot achieves superior scene coherence, role consistency, and generation efficiency compared to state-of-the-art text-to-image storyboard models, establishing a new direction toward controllable video model-driven visual storytelling.

翻译：故事板合成在视觉叙事中扮演着关键角色，旨在生成连贯的镜头序列，以可视化方式叙述电影事件，并保持角色、场景和转场的一致性。然而，现有方法多改编自文本到图像扩散模型，难以在多个镜头间维持长程时序连贯性、一致的角色身份以及叙事流。本文提出DreamShot——一种基于视频生成模型的故事板框架，充分利用强大的视频扩散先验，实现可控的多镜头合成。DreamShot支持文本到镜头与参考到镜头两种生成模式，并能基于前序帧进行故事延续，支持灵活且具上下文感知的故事板生成。通过利用视频生成模型固有的时空一致性，DreamShot生成的序列在视觉与语义上均保持连贯，提升了叙事保真度与角色连续性。此外，DreamShot集成了多参考角色条件模块，可接受多张角色参考图像，并通过角色注意力一致性损失强制身份对齐，显式约束参考与生成角色之间的注意力。大量实验表明，与最先进的文本到图像故事板模型相比，DreamShot在场景连贯性、角色一致性与生成效率上均实现了更优性能，为可控视频模型驱动的视觉叙事开辟了新方向。

0

相关内容

视频

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

专知会员服务

13+阅读 · 2025年8月13日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

ReCap: Lightweight Referential Grounding for Coherent Story Visualization

Arxiv

0+阅读 · 4月20日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Arxiv

0+阅读 · 4月2日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

TempoControl: Temporal Attention Guidance for Text-to-Video Models

Arxiv

0+阅读 · 4月1日

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

Arxiv

0+阅读 · 3月29日

ExpPortrait: Expressive Portrait Generation via Personalized Representation

Arxiv

0+阅读 · 3月25日

Diffusion Models for Joint Audio-Video Generation

Arxiv

0+阅读 · 3月17日

Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits

Arxiv

0+阅读 · 3月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

5+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

专知会员服务

13+阅读 · 2025年8月13日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

ReCap: Lightweight Referential Grounding for Coherent Story Visualization

Arxiv

0+阅读 · 4月20日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Arxiv

0+阅读 · 4月6日

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Arxiv

0+阅读 · 4月2日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

TempoControl: Temporal Attention Guidance for Text-to-Video Models

Arxiv

0+阅读 · 4月1日

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

Arxiv

0+阅读 · 3月29日

ExpPortrait: Expressive Portrait Generation via Personalized Representation

Arxiv

0+阅读 · 3月25日

Diffusion Models for Joint Audio-Video Generation

Arxiv

0+阅读 · 3月17日

Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits

Arxiv

0+阅读 · 3月16日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员