A Text-Native Interface for Generative Video Authoring - 专知论文

会员服务 ·

0

视频 · 工具 · 融合 · 交互 · 构建 ·

A Text-Native Interface for Generative Video Authoring

翻译：基于文本原生的生成式视频创作界面

Xingyu Bruce Liu,Mira Dontcheva,Dingzeyu Li

Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.

翻译：每个人都能以自由文本格式书写自己的故事——这是我们在学校都学习过的技能。然而通过视频进行叙事却需要掌握专业且复杂的工具。本文介绍Doki，一种基于文本原生的生成式视频创作界面，它将视频创作与文本书写的自然过程相融合。在Doki中，文本写作是核心交互方式：用户可在单一文档内定义素材、构建场景、创建镜头、精编剪辑并添加音频。我们系统阐述了这种文本优先方法的设计原则，并通过系列案例展示了Doki的功能。为评估其实际应用效果，我们开展了为期一周的部署研究，参与者涵盖不同视频创作经验水平。这项工作推动了生成式视频界面的根本性变革，展示了一种强大且易用的视觉叙事创作新范式。

0

相关内容

视频

《可控视频生成：综述》

《可控视频生成：综述》

专知会员服务

17+阅读 · 2025年7月24日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【KAUST博士论文】面向可信文本生成的探索：信息性、真实性和鲁棒性方面的研究，169页pdf

【KAUST博士论文】面向可信文本生成的探索：信息性、真实性和鲁棒性方面的研究，169页pdf

专知会员服务

18+阅读 · 2024年6月5日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

专知会员服务

39+阅读 · 2022年5月28日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知会员服务

39+阅读 · 2020年3月5日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

A Benchmarking Methodology to Assess Open-Source Video Large Language Models in Automatic Captioning of News Videos

Arxiv

0+阅读 · 3月29日

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

Arxiv

0+阅读 · 3月26日

A Human-in/on-the-Loop Framework for Accessible Text Generation

Arxiv

0+阅读 · 3月19日

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Texterial: A Text-as-Material Interaction Paradigm for LLM-Mediated Writing

Arxiv

0+阅读 · 2月28日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

8+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

3+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

7+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

7+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

12+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

9+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

8+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

10+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

9+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

《可控视频生成：综述》

《可控视频生成：综述》

专知会员服务

17+阅读 · 2025年7月24日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【KAUST博士论文】面向可信文本生成的探索：信息性、真实性和鲁棒性方面的研究，169页pdf

【KAUST博士论文】面向可信文本生成的探索：信息性、真实性和鲁棒性方面的研究，169页pdf

专知会员服务

18+阅读 · 2024年6月5日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

如何提示？【2023新书】掌握生成式AI文本提示：创意、内容创建和问题解决的实用指南

专知会员服务

90+阅读 · 2023年9月20日

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

【伯克利博士论文】基于生成模型的图像和长视频合成，114页pdf

专知会员服务

49+阅读 · 2023年5月18日

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

专知会员服务

39+阅读 · 2022年5月28日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知会员服务

39+阅读 · 2020年3月5日

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

【IJCAI 2019 | tutorial】文本生成中的艺术字 Creative and Artistic Writing via Text Generation，北京大学|严睿

专知会员服务

16+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

相关论文

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Arxiv

0+阅读 · 4月29日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

Rewriting Video: Text-Driven Reauthoring of Video Footage

Arxiv

0+阅读 · 4月6日

A Benchmarking Methodology to Assess Open-Source Video Large Language Models in Automatic Captioning of News Videos

Arxiv

0+阅读 · 3月29日

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

Arxiv

0+阅读 · 3月26日

A Human-in/on-the-Loop Framework for Accessible Text Generation

Arxiv

0+阅读 · 3月19日

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

Arxiv

0+阅读 · 3月14日

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Arxiv

0+阅读 · 3月10日

Monetizing Generative AI: YouTubers' Collective Knowledge on Earning from Generative AI Content

Arxiv

0+阅读 · 3月10日

Texterial: A Text-as-Material Interaction Paradigm for LLM-Mediated Writing

Arxiv

0+阅读 · 2月28日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员