Audio-driven 3D talking avatar generation is increasingly important in virtual communication, digital humans, and interactive media, where avatars must preserve identity, synchronize lip motion with speech, express emotion, and exhibit lifelike spatial dynamics, collectively defining a broader objective of expressivity. However, achieving this remains challenging due to insufficient training data with limited subject identities, narrow audio representations, and restricted explicit controllability. In this paper, we propose 3DXTalker, an expressive 3D talking avatar through data-curated identity modeling, audio-rich representations, and spatial dynamics controllability. 3DXTalker enables scalable identity modeling via 2D-to-3D data curation pipeline and disentangled representations, alleviating data scarcity and improving identity generalization. Then, we introduce frame-wise amplitude and emotional cues beyond standard speech embeddings, ensuring superior lip synchronization and nuanced expression modulation. These cues are unified by a flow-matching-based transformer for coherent facial dynamics. Moreover, 3DXTalker also enables natural head-pose motion generation while supporting stylized control via prompt-based conditioning. Extensive experiments show that 3DXTalker integrates lip synchronization, emotional expression, and head-pose dynamics within a unified framework, achieves superior performance in 3D talking avatar generation.


翻译:音频驱动的三维说话头像生成在虚拟交流、数字人与交互媒体中日益重要,其中头像需保持身份一致性、唇部动作与语音同步、表达情感并呈现逼真的空间动态,这些要素共同定义了更广泛的表现力目标。然而,由于训练数据中身份主体有限、音频表征狭窄以及显式可控性不足,实现这一目标仍具挑战。本文提出3DXTalker,一种通过数据策展的身份建模、丰富音频表征及空间动态可控性实现的富有表现力三维说话头像。3DXTalker通过二维至三维数据策展流程与解耦表征实现可扩展的身份建模,缓解数据稀缺问题并提升身份泛化能力。进一步,我们引入超越标准语音嵌入的帧级振幅与情感线索,确保卓越的唇形同步与细腻的表情调节。这些线索通过基于流匹配的Transformer进行统一,以生成连贯的面部动态。此外,3DXTalker还能生成自然的头部姿态运动,同时支持通过基于提示的条件实现风格化控制。大量实验表明,3DXTalker将唇形同步、情感表达与头部姿态动态整合于统一框架,在三维说话头像生成中实现了优越性能。

0
下载
关闭预览

相关内容

3D形状生成:综述
专知会员服务
17+阅读 · 2025年7月7日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
3D形状生成:综述
专知会员服务
17+阅读 · 2025年7月7日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员