DiffusionCinema：文本驱动的航拍电影摄影 (DiffusionCinema: Text-to-Aerial Cinematography) - 专知论文

会员服务 ·

0

电影 · 系统 · 文本驱动 · 视频 · 扩散模型 ·

DiffusionCinema: Text-to-Aerial Cinematography

翻译：DiffusionCinema：文本驱动的航拍电影摄影

Valerii Serpiva,Artem Lykov,Jeffrin Sam,Aleksey Fedoseev,Dzmitry Tsetserukou

We propose a novel Unmanned Aerial Vehicles (UAV) assisted creative capture system that leverages diffusion models to interpret high-level natural language prompts and automatically generate optimal flight trajectories for cinematic video recording. Instead of manually piloting the drone, the user simply describes the desired shot (e.g., "orbit around me slowly from the right and reveal the background waterfall"). Our system encodes the prompt along with an initial visual snapshot from the onboard camera, and a diffusion model samples plausible spatio-temporal motion plans that satisfy both the scene geometry and shot semantics. The generated flight trajectory is then executed autonomously by the UAV to record smooth, repeatable video clips that match the prompt. User evaluation using NASA-TLX showed a significantly lower overall workload with our interface (M = 21.6) compared to a traditional remote controller (M = 58.1), demonstrating a substantial reduction in perceived effort. Mental demand (M = 11.5 vs. 60.5) and frustration (M = 14.0 vs. 54.5) were also markedly lower for our system, confirming clear usability advantages in autonomous text-driven flight control. This project demonstrates a new interaction paradigm: text-to-cinema flight, where diffusion models act as the "creative operator" converting story intentions directly into aerial motion.

翻译：我们提出了一种新颖的无人机辅助创意拍摄系统，该系统利用扩散模型解析高层次自然语言提示，并自动生成用于电影视频录制的最优飞行轨迹。用户无需手动操控无人机，只需描述期望的镜头（例如：“从我右侧缓慢环绕飞行，并逐渐展现背景瀑布”）。我们的系统将提示词与机载摄像头的初始视觉快照一同编码，扩散模型则采样满足场景几何与镜头语义的合理时空运动规划。生成的飞行轨迹随后由无人机自主执行，以录制与提示匹配的平滑、可重复的视频片段。使用NASA-TLX进行的用户评估表明，相较于传统遥控器（M = 58.1），我们的界面总体工作负荷显著降低（M = 21.6），感知努力大幅减少。我们系统的心理需求（M = 11.5 对比 60.5）与挫败感（M = 14.0 对比 54.5）也明显更低，证实了在自主文本驱动飞行控制方面具有明确的可用性优势。本项目展示了一种新的交互范式：文本到电影飞行，其中扩散模型充当“创意操作员”，将故事意图直接转换为空中运动。

0

相关内容

电影是一种视听媒介，利用胶卷、录像带或数位媒体将影像和声音捕捉，再加上后期的编辑工作而成。

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

16+阅读 · 2025年10月24日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

40+阅读 · 2023年9月11日

《综述：自主无人机竞赛》2023最新20页论文，苏黎世大学

《综述：自主无人机竞赛》2023最新20页论文，苏黎世大学

专知会员服务

43+阅读 · 2023年2月2日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《使用神经形态相机的无人机虚拟围栏》加拿大国防研究与发展部论文

《使用神经形态相机的无人机虚拟围栏》加拿大国防研究与发展部论文

专知会员服务

27+阅读 · 2022年5月31日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

专知会员服务

63+阅读 · 2020年1月21日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

新型相机DVS/Event-based camera的发展及应用

新型相机DVS/Event-based camera的发展及应用

计算机视觉life

16+阅读 · 2019年3月12日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

3+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation

Arxiv

0+阅读 · 2月6日

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月27日

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Arxiv

0+阅读 · 1月25日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月23日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月21日

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Arxiv

0+阅读 · 1月20日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

16+阅读 · 2025年10月24日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

40+阅读 · 2023年9月11日

《综述：自主无人机竞赛》2023最新20页论文，苏黎世大学

《综述：自主无人机竞赛》2023最新20页论文，苏黎世大学

专知会员服务

43+阅读 · 2023年2月2日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《使用神经形态相机的无人机虚拟围栏》加拿大国防研究与发展部论文

《使用神经形态相机的无人机虚拟围栏》加拿大国防研究与发展部论文

专知会员服务

27+阅读 · 2022年5月31日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

天津大学等发布最新「无人机视觉检测和跟踪」综述论文：过去、现在和未来

专知会员服务

63+阅读 · 2020年1月21日

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

【综述论文推荐】无人机计算机视觉：过去、现在与未来，Vision Meets Drones: Past, Present and Future

专知会员服务

44+阅读 · 2020年1月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

新型相机DVS/Event-based camera的发展及应用

新型相机DVS/Event-based camera的发展及应用

计算机视觉life

16+阅读 · 2019年3月12日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation

Arxiv

0+阅读 · 2月6日

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月27日

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Arxiv

0+阅读 · 1月25日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月23日

HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Arxiv

0+阅读 · 1月21日

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Arxiv

0+阅读 · 1月20日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation

Arxiv

0+阅读 · 1月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

3+阅读 · 2015年12月31日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员