【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构 - 专知VIP

会员服务 ·

3

AAAI 2026 · 多主体视频生成 · 傅里叶融合 ·

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多主体视频生成旨在根据文本提示词和多张参考图像合成视频，同时确保每个主体保持自然的尺度与视觉保真度。然而，现有的研究方法面临两大挑战：一是尺度不一致性（scale inconsistency），即主体尺寸的变化会导致生成效果不自然；二是排列敏感性（permutation sensitivity），即参考输入的顺序会导致主体失真。本文提出了 MoFu，一个旨在同时解决上述挑战的统一框架。针对尺度不一致性，我们引入了尺度感知调制（Scale-Aware Modulation, SMO）。这是一个由大语言模型（LLM）引导的模块，能够从提示词中提取隐式尺度线索并调制特征，从而确保主体尺寸的一致性。为了解决排列敏感性，我们提出了一种简单且有效的傅里叶融合（Fourier Fusion）策略，该策略通过快速傅里叶变换（FFT）处理参考特征的频率信息，从而产生统一的特征表示。此外，我们设计了尺度-排列稳定性损失（Scale-Permutation Stability Loss），以共同促进尺度一致且具有排列不变性的生成过程。为了进一步评估这些挑战，我们建立了一个专门的基准测试，其中包含对主体尺度和参考排列的受控变量。大量实验表明，MoFu 在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。

成为VIP会员查看完整内容

5

相关内容

AAAI 2026

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【AAAI2025】用于高保真3D重建的多视图条件扩散模型

【AAAI2025】用于高保真3D重建的多视图条件扩散模型

专知会员服务

19+阅读 · 2024年12月12日

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

专知会员服务

27+阅读 · 2024年9月29日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于混合约束正则化的电阻抗成像反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

PoseStreamer: A Multi-modal Framework for 6DoF Pose Estimation of Unseen Moving Objects

Arxiv

0+阅读 · 2025年12月31日

UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning

Arxiv

0+阅读 · 2025年12月31日

OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

Arxiv

0+阅读 · 2025年12月31日

Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

Arxiv

0+阅读 · 2025年12月31日

GaussianImage++: Boosted Image Representation and Compression with 2D Gaussian Splatting

Arxiv

0+阅读 · 2025年12月30日

VIP会员

相关主题

多主体视频生成

傅里叶融合

相关VIP内容

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【AAAI2025】用于高保真3D重建的多视图条件扩散模型

【AAAI2025】用于高保真3D重建的多视图条件扩散模型

专知会员服务

19+阅读 · 2024年12月12日

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

【NeurIPS2024】超越冗余：信息感知的无监督多重图结构学习

专知会员服务

27+阅读 · 2024年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体工程的发展现状

博弈论驱动的人机编队

【伯克利博士论文】基于投机性解码的高效大语言模型系统

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于混合约束正则化的电阻抗成像反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

PoseStreamer: A Multi-modal Framework for 6DoF Pose Estimation of Unseen Moving Objects

Arxiv

0+阅读 · 2025年12月31日

UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning

Arxiv

0+阅读 · 2025年12月31日

OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

Arxiv

0+阅读 · 2025年12月31日

Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

Arxiv

0+阅读 · 2025年12月31日

GaussianImage++: Boosted Image Representation and Compression with 2D Gaussian Splatting

Arxiv

0+阅读 · 2025年12月30日

微信扫码咨询专知VIP会员