Soundini: Sound-Guided Diffusion for Natural Video Editing - 专知论文

会员服务 ·

0

时间一致性 · 视频 · 一致 · 波浪 · 光流 ·

2023 年 4 月 13 日

Soundini: Sound-Guided Diffusion for Natural Video Editing

翻译：Soundini：声音引导的自然视频编辑扩散方法

Seung Hyun Lee,Sieun Kim,Innfarn Yoo,Feng Yang,Donghyeon Cho,Youngseo Kim,Huiwen Chang,Jinkyu Kim,Sangpil Kim

We propose a method for adding sound-guided visual effects to specific regions of videos with a zero-shot setting. Animating the appearance of the visual effect is challenging because each frame of the edited video should have visual changes while maintaining temporal consistency. Moreover, existing video editing solutions focus on temporal consistency across frames, ignoring the visual style variations over time, e.g., thunderstorm, wave, fire crackling. To overcome this limitation, we utilize temporal sound features for the dynamic style. Specifically, we guide denoising diffusion probabilistic models with an audio latent representation in the audio-visual latent space. To the best of our knowledge, our work is the first to explore sound-guided natural video editing from various sound sources with sound-specialized properties, such as intensity, timbre, and volume. Additionally, we design optical flow-based guidance to generate temporally consistent video frames, capturing the pixel-wise relationship between adjacent frames. Experimental results show that our method outperforms existing video editing techniques, producing more realistic visual effects that reflect the properties of sound. Please visit our page: https://kuai-lab.github.io/soundini-gallery/.

翻译：我们提出一种零样本设置下对视频特定区域添加声音引导视觉效果的方法。动态视觉效果的动画化存在挑战，因为编辑后视频的每一帧需在保持时间一致性的同时产生视觉变化。此外，现有视频编辑方案聚焦于帧间时间一致性，忽略了随时间变化的视觉风格（例如雷暴、波浪、火焰爆裂声）。为克服这一局限，我们利用时间声音特征来驱动动态风格。具体而言，我们在音视频联合潜在空间中用音频潜在表示引导去噪扩散概率模型。据我们所知，本工作是首个探索从多种声源中利用声音专属属性（如强度、音色、音量）进行声音引导自然视频编辑的研究。同时，我们设计了基于光流的引导机制来生成时间一致的视频帧，捕获相邻帧间像素级关联。实验结果表明，我们的方法优于现有视频编辑技术，能生成更逼真且反映声音属性的视觉效果。请访问项目页面：https://kuai-lab.github.io/soundini-gallery/。

0

相关内容

时间一致性

时间一致性

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

45+阅读 · 2023年6月2日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

22+阅读 · 2022年7月7日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

机器之心

1+阅读 · 2022年7月31日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于卫星遥感的区域高分辨率氮氧化物排放量反演模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

目标跟踪中的时空上下文建模方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于稀疏优化的空时分布密集多径信号估计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多级孔纳米结构上Ce/Zr基催化剂联合低温等离子体脱除VOCs的基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

成年外周神经系统中神经发生的一种新模式—背根节感觉神经元前体的来源、特征及proBDNF对其分化成熟的研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

面向不确定性的Web2.0用户创作内容管理研究

国家自然科学基金

0+阅读 · 2011年12月31日

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

Controllable Motion Diffusion Model

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

Arxiv

0+阅读 · 2023年5月30日

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

Arxiv

0+阅读 · 2023年5月29日

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月29日

Restormer-Plus for Real World Image Deraining: the Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3)

Arxiv

0+阅读 · 2023年5月26日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

VIP会员

文章信息

相关主题

时间一致性

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

0+阅读 · 14分钟前

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

0+阅读 · 18分钟前

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

相关VIP内容

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

45+阅读 · 2023年6月2日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

22+阅读 · 2022年7月7日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

30+阅读 · 2022年3月28日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

热门VIP内容

开通专知VIP会员享更多权益服务

军事欺骗：供作战战术指挥官使用的工具

综述 | 世界动作模型：少做梦，多行动

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

相关资讯

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节

机器之心

1+阅读 · 2022年7月31日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记

统计学习与视觉计算组

17+阅读 · 2018年3月16日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

可解释的CNN

可解释的CNN

CreateAMind

18+阅读 · 2017年10月5日

相关论文

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

Controllable Motion Diffusion Model

Arxiv

0+阅读 · 2023年6月1日

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model

Arxiv

0+阅读 · 2023年5月31日

Direct Diffusion Bridge using Data Consistency for Inverse Problems

Arxiv

0+阅读 · 2023年5月31日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

Arxiv

0+阅读 · 2023年5月30日

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

Arxiv

0+阅读 · 2023年5月29日

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月29日

Restormer-Plus for Real World Image Deraining: the Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3)

Arxiv

0+阅读 · 2023年5月26日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

相关基金

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于卫星遥感的区域高分辨率氮氧化物排放量反演模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

目标跟踪中的时空上下文建模方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于稀疏优化的空时分布密集多径信号估计方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多级孔纳米结构上Ce/Zr基催化剂联合低温等离子体脱除VOCs的基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

成年外周神经系统中神经发生的一种新模式—背根节感觉神经元前体的来源、特征及proBDNF对其分化成熟的研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频中交互行为的自动分析与理解

国家自然科学基金

1+阅读 · 2012年12月31日

面向不确定性的Web2.0用户创作内容管理研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员