Video mashup creation represents a complex video editing paradigm that recomposes existing footage to craft engaging audio-visual experiences, demanding intricate orchestration across semantic, visual, and auditory dimensions and multiple levels. However, existing automated editing frameworks often overlook the cross-level multimodal orchestration to achieve professional-grade fluidity, resulting in disjointed sequences with abrupt visual transitions and musical misalignment. To address this, we formulate video mashup creation as a Multimodal Coherency Satisfaction Problem (MMCSP) and propose the DIRECT framework. Simulating a professional production pipeline, our hierarchical multi-agent framework decomposes the challenge into three cascade levels: the Screenwriter for source-aware global structural anchoring, the Director for instantiating adaptive editing intent and guidance, and the Editor for intent-guided shot sequence editing with fine-grained optimization. We further introduce Mashup-Bench, a comprehensive benchmark with tailored metrics for visual continuity and auditory alignment. Extensive experiments demonstrate that DIRECT significantly outperforms state-of-the-art baselines in both objective metrics and human subjective evaluation. Project page and code: https://github.com/AK-DREAM/DIRECT


翻译:视频混剪创作代表了一种复杂的视频编辑范式,它通过重组现有素材来打造引人入胜的视听体验,需要在语义、视觉和听觉多个维度及层级上进行精细编排。然而,现有的自动化编辑框架往往忽视了跨层级的多元模态编排以实现专业级的流畅度,导致序列中出现突兀的视觉转换和音乐错位。为解决此问题,我们将视频混剪创作形式化为多模态连贯性满足问题(MMCSP),并提出DIRECT框架。该分层多智能体框架模拟专业制作流程,将挑战分解为三个级联层级:编剧层(Screenwriter)负责源感知的全局结构锚定,导演层(Director)负责实例化自适应编辑意图与指导,剪辑层(Editor)负责意图引导的镜头序列编辑与细粒度优化。我们进一步引入了Mashup-Bench基准测试集,该基准包含针对视觉连续性和听觉对齐度定制的评估指标。大量实验表明,DIRECT在客观指标和人类主观评估上均显著优于当前最先进的基线方法。项目主页与代码:https://github.com/AK-DREAM/DIRECT

0
下载
关闭预览

相关内容

【CVPR2025】基于大语言模型的视频摘要生成
专知会员服务
12+阅读 · 2025年4月21日
百度基于异构互联知识图谱的多模内容创作技术
专知会员服务
52+阅读 · 2022年6月7日
专知会员服务
23+阅读 · 2021年7月5日
专知会员服务
37+阅读 · 2021年2月20日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员