Editing a long-form video from heterogeneous footage requires more than selecting clips: an agent must preserve narrative intent across material preparation, timeline construction, post-production, and revision while leaving enough evidence to diagnose failures. We present \textbf{Crayotter}, an open-source multimodal multi-agent system for prompt-driven video editing. Crayotter organizes production into three phases: coverage-aware material preparation, artifact-based editing research, and tool-grounded timeline execution. Each phase externalizes inspectable artifacts, including coverage reports, multimodal analyses, editing blueprints, tool calls, and intermediate renders. These artifacts make an editing run traceable and allow failed segments to be diagnosed and selectively revised instead of requiring a full restart. We evaluate Crayotter on 23 editing themes against CapCut-Mate and CutClaw. Under human evaluation, Crayotter achieves an average score of 3.40/5, compared with 2.44 and 1.70 for the two baselines, with consistent gains in theme alignment, narrative coherence, and editing smoothness. We additionally describe a replayable trajectory schema and verifiable reward design that prepare these workflows for future policy optimization. Code, traces, and examples are publicly available at https://github.com/idwts/Crayotter.


翻译:从异构素材中编辑长视频不仅需要选取片段:智能体需确保在整个素材准备、时间线构建、后期制作与修订过程中保持叙事意图,同时留下足够证据以诊断失败。我们提出**Crayotter**,一个用于提示驱动视频编辑的开源多模态多智能体系统。Crayotter将制作流程组织为三个阶段:关注覆盖率的素材准备、基于工件的编辑研究,以及基于工具的时间线执行。每个阶段均产出可供检查的工件,包括覆盖率报告、多模态分析、编辑蓝图、工具调用记录及中间渲染结果。这些工件使编辑过程可追溯,并允许对失败片段进行诊断与选择性修订,而非完全重启。我们在23个编辑主题上对Crayotter进行了评估,并与CapCut-Mate和CutClaw进行对比。人工评估显示,Crayotter的平均得分为3.40/5,而两个基线分别为2.44和1.70,且在主题对齐、叙事连贯性和编辑流畅性方面均表现出持续优势。此外,我们描述了一种可回放的轨迹模式及可验证的奖励设计,为未来策略优化奠定基础。代码、轨迹及示例见https://github.com/idwts/Crayotter。

0
下载
关闭预览

相关内容

探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员