MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation - 专知论文

会员服务 ·

0

动动 · 扰动 · 噪声 · 视频 · 合成 ·

MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation

翻译：MotionCFG：通过随机概念扰动增强运动动态

Byungjun Kim,Soobin Um,Jong Chul Ye

Despite recent advances in Text-to-Video (T2V) synthesis, generating high-fidelity and dynamic motion remains a significant challenge. Existing methods primarily rely on Classifier-Free Guidance (CFG), often with explicit negative prompts (e.g. "static", "blurry"), to suppress undesired artifacts. However, such explicit negations frequently introduce unintended semantic bias and distort object integrity; a phenomenon we define as Content-Motion Drift. To address this, we propose MotionCFG, a framework that enhances motion dynamics by contrasting a target concept with its noise-perturbed counterparts. Specifically, by injecting Gaussian noise into the concept embeddings, MotionCFG creates localized negative anchors that encapsulate a broad complementary space of sub-optimal motion variations. Unlike explicit negations, this approach facilitates implicit hard negative mining without shifting the global semantic identity, allowing for a focused refinement of temporal details. Combined with a piecewise guidance schedule that confines intervention to the early denoising steps, MotionCFG consistently improves motion dynamics across state-of-the-art T2V frameworks with negligible computational overhead and minimal compromise in visual quality. Additionally, we demonstrate that this noise-induced contrastive mechanism is effective not only for sharpening motion trajectories but also for steering complex, non-linear concepts such as precise object numerosity, which are typically difficult to modulate via standard text-based guidance.

翻译：尽管文本到视频（T2V）合成技术近期取得了进展，生成高保真且动态的运动仍然是一个重大挑战。现有方法主要依赖于无分类器引导（CFG），通常配合显式的负面提示（例如“静态”、“模糊”）来抑制不期望的伪影。然而，此类显式否定常常引入非预期的语义偏差并扭曲对象完整性；我们将这一现象定义为内容-运动漂移。为解决此问题，我们提出了MotionCFG，一个通过对比目标概念与其噪声扰动对应物来增强运动动态的框架。具体而言，通过向概念嵌入中注入高斯噪声，MotionCFG创建了局部化的负锚点，这些锚点封装了次优运动变化的广泛互补空间。与显式否定不同，此方法促进了隐式的困难负样本挖掘，而不会改变全局语义身份，从而允许对时序细节进行聚焦式优化。结合一个将干预限制在早期去噪步骤的分段引导调度策略，MotionCFG能够持续改进最先进T2V框架中的运动动态，且计算开销可忽略不计，视觉质量损失最小。此外，我们证明了这种噪声诱导的对比机制不仅对锐化运动轨迹有效，还能用于引导复杂的非线性概念，例如精确的对象数量，这些概念通常难以通过标准的基于文本的引导进行调节。

0

相关内容

如果每走一步都是为健康投资，每坐一分钟都是为健康透支，你今天是赚了还是赔了? 从现在开始，跟小动君一起改变吧! 动动，为了更好的每一天。

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于光流法的空间TDICCD相机动态成像性能提升方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于投影动态系统理论的认知无线网络实时功率分配问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

外部扰动下半导体激光器随机阵发混沌态输出的动力学特性及相关应用探索

国家自然科学基金

0+阅读 · 2014年12月31日

利用扰动激励的机组轴系扭振响应辨识次同步振荡模态及安全预警的研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

Arxiv

0+阅读 · 4月30日

MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives

Arxiv

0+阅读 · 4月27日

GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

Arxiv

0+阅读 · 4月14日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Arxiv

0+阅读 · 3月28日

Versatile Editing of Video Content, Actions, and Dynamics without Training

Arxiv

0+阅读 · 3月18日

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Arxiv

0+阅读 · 3月9日

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Arxiv

0+阅读 · 3月6日

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Arxiv

0+阅读 · 3月5日

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Arxiv

0+阅读 · 3月1日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

5+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

5+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

5+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

3+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

5+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

5+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

12+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

10+阅读 · 7月18日

相关VIP内容

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

【AAAI2020论文-腾讯】通过稠密边界发生器快速学习时间动作方案（Fast Learning of Temporal Action Proposal via Dense Boundary Generator）

专知会员服务

12+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

Arxiv

0+阅读 · 4月30日

MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives

Arxiv

0+阅读 · 4月27日

GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

Arxiv

0+阅读 · 4月14日

Pulp Motion: Framing-aware multimodal camera and human motion generation

Arxiv

0+阅读 · 4月1日

MotionCrafter: Dense Geometry and Motion Reconstruction with a 4D VAE

Arxiv

0+阅读 · 3月28日

Versatile Editing of Video Content, Actions, and Dynamics without Training

Arxiv

0+阅读 · 3月18日

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Arxiv

0+阅读 · 3月9日

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Arxiv

0+阅读 · 3月6日

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Arxiv

0+阅读 · 3月5日

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Arxiv

0+阅读 · 3月1日

相关基金

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于光流法的空间TDICCD相机动态成像性能提升方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于投影动态系统理论的认知无线网络实时功率分配问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲式干扰下高超声速飞行器的有限时间状态受限控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

外部扰动下半导体激光器随机阵发混沌态输出的动力学特性及相关应用探索

国家自然科学基金

0+阅读 · 2014年12月31日

利用扰动激励的机组轴系扭振响应辨识次同步振荡模态及安全预警的研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员