Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page


翻译:近期视频编辑模型趋向于统一的调节设计:一个共享的扩散变换器同时处理文本、源视频和参考图像,单一权重集即可覆盖替换、移除、风格迁移及参考驱动插入等任务。该设计灵活,但前提是用户已提供适配模型输入的文本、参考图像及局部编辑的空间定位,而实际需求常缺失这些要素。我们提出Aurora——一种代理式视频编辑框架,将工具增强的视觉语言模型(VLM)代理与统一视频扩散变换器相结合。VLM代理将原始用户请求映射为与变换器调节通道对齐的结构化编辑方案,从而在生成前解决文本与视觉信息不完整问题。我们通过监督数据训练VLM代理,使其具备完整编辑规划与参考图像选择能力,并利用偏好对提升工具使用鲁棒性与指令优化能力。为评估文本与视觉不完整场景下代理增强型视频编辑性能,我们引入AgentEdit-Bench基准测试。在AgentEdit-Bench及两项现有视频编辑基准上的实验表明,Aurora优于仅依赖指令的基线方法,且VLM代理可迁移至兼容的冻结视频编辑模型。项目页面:https://yeates.github.io/Aurora-Page

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
专知会员服务
37+阅读 · 2021年2月20日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
图像处理:从 bilateral filter 到 HDRnet
极市平台
30+阅读 · 2019年8月7日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
专知会员服务
37+阅读 · 2021年2月20日
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
图像处理:从 bilateral filter 到 HDRnet
极市平台
30+阅读 · 2019年8月7日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员