Music-grounded mashup video creation is a challenging form of video non-linear editing, where a system must compose a coherent timeline from large collections of source videos while aligning with music rhythm, user intent, story completeness, and long-range structural constraints. Existing approaches typically rely on fixed pipelines or simplified retrieval-and-concatenation paradigms, limiting their ability to adapt to diverse prompts and heterogeneous source materials. In this paper, we present GLANCE, a global-local coordination multi-agent framework for music-grounded nonlinear video editing. GLANCE adopts a bi-loop architecture for better editing practice: an outer loop performs long-horizon planning and task-graph construction, and an inner loop adopts the "Observe-Think-Act-Verify" flow for segment-wise editing tasks and their refinements. To address the cross-segment and global conflict emerging after subtimelines composition, we introduce a dedicated global-local coordination mechanism with both preventive and corrective components, which includes a novelly designed context controller, conflict region decomposition module, and a bottom-up dynamic negotiation mechanism. To support rigorous evaluation, we construct MVEBench, a new benchmark that factorizes editing difficulty along task type, prompt specificity, and music length, and propose an agent-as-a-judge evaluation framework for scalable multi-dimensional assessment. Experimental results show that GLANCE consistently outperforms prior research baselines and open-source product baselines under the same backbone models. With GPT-4o-mini as the backbone, GLANCE improves over the strongest baseline by 33.2% and 15.6% on two task settings, respectively. Human evaluation further confirms the quality of the generated videos and validates the effectiveness of the proposed evaluation framework.


翻译:基于音乐的混剪视频创作是非线性视频编辑中一种具有挑战性的形式,要求系统在兼顾音乐节奏、用户意图、故事完整性和长程结构约束的前提下,从大量源视频中构建连贯的时间线。现有方法通常依赖固定流程或简化的检索-拼接范式,限制了其对多样化提示和异构源素材的适应能力。本文提出GLANCE——一种面向音乐驱动非线性视频编辑的全局-局部协调多智能体框架。GLANCE采用双环架构以实现更优的编辑实践:外环执行长程规划与任务图构建,内环通过“观察-思考-行动-验证”流程逐段完成编辑任务与优化。针对子时间线组合后出现的跨片段与全局冲突,我们引入专门的全局-局部协调机制,包含预防性与纠正性组件,具体包括新型设计的上下文控制器、冲突区域分解模块以及自底向上的动态协商机制。为支持严格评估,我们构建了MVEBench新基准,按任务类型、提示特异性和音乐长度分解编辑难度,并提出“智能体即裁判”评估框架以实现可扩展的多维度评价。实验结果表明,GLANCE在相同骨干模型下持续优于先前研究基线及开源产品基线。以GPT-4o-mini为骨干模型时,GLANCE在两项任务设置上分别比最强基线提升33.2%和15.6%。人工评估进一步验证了生成视频的质量及所提评估框架的有效性。

0
下载
关闭预览

相关内容

视频理解:从几何与语义表征到统一模型架构
专知会员服务
20+阅读 · 3月21日
百度基于异构互联知识图谱的多模内容创作技术
专知会员服务
52+阅读 · 2022年6月7日
专知会员服务
23+阅读 · 2021年7月5日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
干货 | Github项目推荐 : GANSynth: 用GANs创作音乐
AI科技评论
10+阅读 · 2019年3月2日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员