Movie dubbing is the task of synthesizing speech from scripts conditioned on video scenes, requiring accurate lip sync, faithful timbre transfer, and proper modeling of character identity and emotion. However, existing methods face two major limitations: (1) high-quality multimodal dubbing datasets are limited in scale, suffer from high word error rates, contain sparse annotations, rely on costly manual labeling, and are restricted to monologue scenes, all of which hinder effective model training; (2) existing dubbing models rely solely on the lip region to learn audio-visual alignment, which limits their applicability to complex live-action cinematic scenes, and exhibit suboptimal performance in lip sync, speech quality, and emotional expressiveness. To address these issues, we propose FunCineForge, which comprises an end-to-end production pipeline for large-scale dubbing datasets and an MLLM-based dubbing model designed for diverse cinematic scenes. Using the pipeline, we construct the first Chinese television dubbing dataset with rich annotations, and demonstrate the high quality of these data. Experiments across monologue, narration, dialogue, and multi-speaker scenes show that our dubbing model consistently outperforms SOTA methods in audio quality, lip sync, timbre transfer, and instruction following. Code and demos are available at https://anonymous.4open.science/w/FunCineForge.


翻译:电影配音任务旨在根据视频场景条件从剧本合成语音,要求实现准确的唇形同步、忠实的音色转换以及对角色身份与情感的正确建模。然而,现有方法面临两大局限:(1)高质量多模态配音数据集规模有限,存在高词错误率、标注稀疏、依赖昂贵人工标注且仅限于独白场景等问题,均阻碍了模型的有效训练;(2)现有配音模型仅依赖唇部区域学习视听对齐,这限制了其在复杂实拍电影场景中的适用性,且在唇形同步、语音质量和情感表现力方面表现欠佳。为解决这些问题,我们提出了FunCineForge,它包含一个用于大规模配音数据集的端到端生产流程,以及一个基于MLLM、为多样化电影场景设计的配音模型。利用该流程,我们构建了首个具有丰富标注的中文电视剧配音数据集,并证明了这些数据的高质量。在独白、旁白、对话及多说话者场景上的实验表明,我们的配音模型在音频质量、唇形同步、音色转换和指令跟随方面均持续优于现有最优方法。代码与演示可在 https://anonymous.4open.science/w/FunCineForge 获取。

0
下载
关闭预览

相关内容

电影是一种视听媒介,利用胶卷、录像带或数位媒体将影像和声音捕捉,再加上后期的编辑工作而成。
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
3+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员