DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation - 专知论文

会员服务 ·

0

视频 · 可控 · 视频生成 · 约束 · 商业 ·

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

翻译：DreamID-Omni：可控人本音视频生成的统一框架

Xu Guo,Fulong Ye,Qichao Sun,Liyang Chen,Bingchuan Li,Pengze Zhang,Jiawei Liu,Songtao Zhao,Qian He,Xiangwang Hou

from arxiv, Project: https://guoxu1233.github.io/DreamID-Omni/

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

翻译：基础模型的近期进展彻底改变了联合音视频生成领域。然而，现有方法通常将人本任务——包括基于参考的音视频生成（R2AV）、视频编辑（RV2AV）和音频驱动视频动画（RA2V）——视为孤立的目标。此外，在单一框架内实现对多角色身份和语音音色的精确解耦控制仍是一个开放挑战。本文提出DreamID-Omni，一个用于可控人本音视频生成的统一框架。具体而言，我们设计了一个对称条件扩散Transformer，它通过对称条件注入方案整合异构条件信号。为解决多人场景中普遍存在的身份-音色绑定失败和说话者混淆问题，我们引入了双级解耦策略：在信号层面采用同步RoPE以确保严格的注意力空间绑定，在语义层面采用结构化描述文本来建立明确的属性-主体映射。此外，我们设计了一种多任务渐进式训练方案，该方案利用弱约束生成先验来正则化强约束任务，从而防止过拟合并协调不同目标。大量实验表明，DreamID-Omni在视频、音频及音视频一致性方面均实现了全面的最先进性能，甚至超越了领先的专有商业模型。我们将公开代码，以弥合学术研究与商业级应用之间的鸿沟。

0

相关内容

视频

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

《可控视频生成：综述》

《可控视频生成：综述》

专知会员服务

17+阅读 · 2025年7月24日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Arxiv

0+阅读 · 3月12日

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Arxiv

0+阅读 · 3月10日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 2月25日

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Arxiv

0+阅读 · 2月22日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 2月12日

ALIVE: Animate Your World with Lifelike Audio-Video Generation

Arxiv

0+阅读 · 2月10日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月10日

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Arxiv

0+阅读 · 2月9日

ALIVE: Animate Your World with Lifelike Audio-Video Generation

Arxiv

0+阅读 · 2月9日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

《可控视频生成：综述》

《可控视频生成：综述》

专知会员服务

17+阅读 · 2025年7月24日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

CMU最新《生成式人工智能》课程，涵盖大模型最新技术

专知会员服务

101+阅读 · 2024年4月4日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

48+阅读 · 2024年3月11日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

相关论文

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Arxiv

0+阅读 · 3月12日

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Arxiv

0+阅读 · 3月10日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 2月25日

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Arxiv

0+阅读 · 2月22日

OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model

Arxiv

0+阅读 · 2月12日

ALIVE: Animate Your World with Lifelike Audio-Video Generation

Arxiv

0+阅读 · 2月10日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月10日

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Arxiv

0+阅读 · 2月9日

ALIVE: Animate Your World with Lifelike Audio-Video Generation

Arxiv

0+阅读 · 2月9日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员