SmoothSync：基于量化音频的双流扩散Transformer实现抗抖动节拍同步手势生成 (SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio) - 专知论文

会员服务 ·

0

多样性 · 平滑 · Transformer · 合成 · 一致 ·

SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio

翻译：SmoothSync：基于量化音频的双流扩散Transformer实现抗抖动节拍同步手势生成

Yujiao Jiang,Qingmin Liao,Zongqing Lu

Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.

翻译：伴随语音手势生成是旨在合成与语音同步的类人手势的关键研究领域。现有方法常存在节律不一致、运动抖动、脚步滑动及多采样多样性受限等问题。本文提出SmoothSync，一种创新框架，通过新颖的双流扩散Transformer架构利用量化音频令牌来合成整体手势并增强采样多样性。具体而言，我们（1）通过互补的Transformer流融合音频-运动特征以实现卓越的同步性，（2）引入抖动抑制损失以提升时间平滑度，（3）采用概率音频量化从相同输入生成差异化手势序列。为在抖动条件下可靠评估节拍同步性，我们提出Smooth-BC——一种对运动噪声不敏感的鲁棒性节拍一致性度量变体。在BEAT2和SHOW数据集上的综合实验表明，SmoothSync在BEAT2数据集上以-30.6% FGD、10.3% Smooth-BC和8.4%多样性的优势超越现有最优方法，同时分别将抖动和脚步滑动降低-62.9%和-17.1%。代码将开源以促进后续研究。

0

相关内容

多样性

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

12+阅读 · 1月28日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

Bioinformatics | MultiGran-SMILES:用于分子性质预测的多粒度SMILES学习

Bioinformatics | MultiGran-SMILES:用于分子性质预测的多粒度SMILES学习

专知会员服务

13+阅读 · 2022年9月25日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【前沿】凌空手势识别综述

【前沿】凌空手势识别综述

科技导报

12+阅读 · 2017年8月17日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向新颖成像模式的敏捷卫星姿态滚动优化控制

国家自然科学基金

0+阅读 · 2015年12月31日

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers

Arxiv

0+阅读 · 1月29日

A conversational gesture synthesis system based on emotions and semantics

Arxiv

0+阅读 · 1月29日

3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control

Arxiv

0+阅读 · 1月26日

Two-Stream temporal transformer for video action classification

Arxiv

0+阅读 · 1月20日

Dual-Stream Collaborative Transformer for Image Captioning

Arxiv

0+阅读 · 1月19日

FlowAct-R1: Towards Interactive Humanoid Video Generation

Arxiv

0+阅读 · 1月15日

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

Arxiv

0+阅读 · 1月9日

Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation

Arxiv

0+阅读 · 1月7日

SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation

Arxiv

0+阅读 · 1月6日

Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

12+阅读 · 1月28日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

Bioinformatics | MultiGran-SMILES:用于分子性质预测的多粒度SMILES学习

Bioinformatics | MultiGran-SMILES:用于分子性质预测的多粒度SMILES学习

专知会员服务

13+阅读 · 2022年9月25日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【前沿】凌空手势识别综述

【前沿】凌空手势识别综述

科技导报

12+阅读 · 2017年8月17日

相关论文

EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers

Arxiv

0+阅读 · 1月29日

A conversational gesture synthesis system based on emotions and semantics

Arxiv

0+阅读 · 1月29日

3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control

Arxiv

0+阅读 · 1月26日

Two-Stream temporal transformer for video action classification

Arxiv

0+阅读 · 1月20日

Dual-Stream Collaborative Transformer for Image Captioning

Arxiv

0+阅读 · 1月19日

FlowAct-R1: Towards Interactive Humanoid Video Generation

Arxiv

0+阅读 · 1月15日

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

Arxiv

0+阅读 · 1月9日

Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation

Arxiv

0+阅读 · 1月7日

SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation

Arxiv

0+阅读 · 1月6日

Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints

Arxiv

0+阅读 · 1月6日

相关基金

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向新颖成像模式的敏捷卫星姿态滚动优化控制

国家自然科学基金

0+阅读 · 2015年12月31日

低信噪比条件下数字通信系统码辅助同步技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

视频防抖关键性技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员