Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation - 专知论文

会员服务 ·

0

模态 · 视频 · 解耦 · 跨模态 · 视频生成 ·

Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

翻译：标题：Unison：面向以人为中心的视听生成中的动作、语音与声音的和谐统一

Shihao Cheng,Jiaxu Zhang,Quanyue Song,Shansong Liu,Zhizhi Guo,Xiaolei Zhang,Chi Zhang,Xuelong Li,Zhigang Tu

Motion, speech, and sound effects are fundamental elements of human-centric videos, yet their heterogeneous temporal characteristics make joint generation highly challenging. Existing audio-video generation models often fail to maintain consistent alignment across these modalities, leading to noticeable mismatches between motion, speech, and environmental sounds. We present Unison, a unified framework that explicitly promotes coherence across the motion, speech, and sound modalities. Within the audio stream, Unison employs a semantic-guided harmonization strategy that decouples the generation of speech and sound-effect components. Leveraging bidirectional audio cross-attention and semantic-conditioned gating for semantic-driven adaptive recomposition, this approach effectively mitigates speech dominance and enhances acoustic clarity. For audio-motion synchronization, we propose a bidirectional cross-modal forcing strategy where the cleaner modality guides the noisier one through decoupled denoising schedules, reinforced by a progressive stabilization strategy. Extensive experiments demonstrate that Unison achieves state-of-the-art performance in both audio perceptual quality and cross-modal synchronization, highlighting the importance of explicit multimodal harmonization in human-centric video generation.

翻译：摘要：动作、语音和音效是以人为中心的视频的基本要素，然而它们异质的时间特性使得联合生成极具挑战性。现有的音视频生成模型通常无法在这些模态间保持一致的同步，导致动作、语音和环境声音之间存在显著的不匹配。我们提出了Unison，一个统一的框架，明确促进动作、语音和声音模态之间的连贯性。在音频流中，Unison采用语义引导的调和策略，将语音和音效成分的生成解耦。该策略利用双向音频交叉注意力与语义条件门控实现语义驱动的自适应重组，有效缓解了语音主导性问题并提升了声学清晰度。针对音频-动作同步，我们提出了一种双向跨模态强制策略，其中较干净的模态通过解耦的去噪调度引导较嘈杂的模态，并通过渐进稳定策略加以强化。大量实验表明，Unison在音频感知质量和跨模态同步方面均达到了最先进性能，凸显了在以人为中心的视频生成中显式多模态调和的重要性。

0

相关内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

59+阅读 · 2024年4月27日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

Arxiv

0+阅读 · 6月14日

Auteur: Language-Driven Cinematographic Framing for Human-Centric Video Generation

Arxiv

0+阅读 · 6月13日

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

Arxiv

0+阅读 · 6月5日

UniVoice: A Unified Model for Speech and Singing Voice Generation

Arxiv

0+阅读 · 6月4日

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

Arxiv

0+阅读 · 6月2日

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

Arxiv

0+阅读 · 5月27日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

OmniSonic: Towards Universal and Holistic Audio Generation from Video and Text

Arxiv

0+阅读 · 4月6日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

11+阅读 · 2025年5月6日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

首篇《人类视频生成》全面综述：挑战、方法和见解

首篇《人类视频生成》全面综述：挑战、方法和见解

专知会员服务

34+阅读 · 2024年7月14日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

59+阅读 · 2024年4月27日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

人工智能前沿讲习班

32+阅读 · 2019年1月28日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

相关论文

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

Arxiv

0+阅读 · 6月15日

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

Arxiv

0+阅读 · 6月14日

Auteur: Language-Driven Cinematographic Framing for Human-Centric Video Generation

Arxiv

0+阅读 · 6月13日

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

Arxiv

0+阅读 · 6月5日

UniVoice: A Unified Model for Speech and Singing Voice Generation

Arxiv

0+阅读 · 6月4日

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

Arxiv

0+阅读 · 6月2日

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

Arxiv

0+阅读 · 5月27日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

OmniSonic: Towards Universal and Holistic Audio Generation from Video and Text

Arxiv

0+阅读 · 4月6日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员