Existing audio language models typically rely on task-specific fine-tuning to accomplish particular audio tasks. In contrast, humans are able to generalize to new audio tasks with only a few examples or simple instructions. GPT-3 has shown that scaling next-token prediction pretraining enables strong generalization capabilities in text, and we believe this paradigm is equally applicable to the audio domain. By scaling MiMo-Audio's pretraining data to over one hundred million of hours, we observe the emergence of few-shot learning capabilities across a diverse set of audio tasks. We develop a systematic evaluation of these capabilities and find that MiMo-Audio-7B-Base achieves SOTA performance on both speech intelligence and audio understanding benchmarks among open-source models. Beyond standard metrics, MiMo-Audio-7B-Base generalizes to tasks absent from its training data, such as voice conversion, style transfer, and speech editing. MiMo-Audio-7B-Base also demonstrates powerful speech continuation capabilities, capable of generating highly realistic talk shows, recitations, livestreaming and debates. At the post-training stage, we curate a diverse instruction-tuning corpus and introduce thinking mechanisms into both audio understanding and generation. MiMo-Audio-7B-Instruct achieves open-source SOTA on audio understanding benchmarks (MMSU, MMAU, MMAR, MMAU-Pro), spoken dialogue benchmarks (Big Bench Audio, MultiChallenge Audio) and instruct-TTS evaluations, approaching or surpassing closed-source models. Model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-Audio.


翻译:现有的音频语言模型通常依赖于特定任务的微调来完成特定的音频任务。相比之下,人类仅需少量示例或简单指令便能泛化至新的音频任务。GPT-3已证明,通过扩展下一词预测预训练的规模,能够在文本领域实现强大的泛化能力,我们相信这一范式同样适用于音频领域。通过将MiMo-Audio的预训练数据规模扩展至超过一亿小时,我们观察到模型在一系列多样化的音频任务上涌现出少样本学习能力。我们对此能力进行了系统性评估,发现MiMo-Audio-7B-Base在开源模型中,于语音智能和音频理解基准测试上均达到了最先进的性能。除标准指标外,MiMo-Audio-7B-Base能够泛化至其训练数据中未出现的任务,例如语音转换、风格迁移和语音编辑。MiMo-Audio-7B-Base还展现出强大的语音延续能力,能够生成高度逼真的脱口秀、朗诵、直播和辩论内容。在后训练阶段,我们构建了多样化的指令调优语料库,并将思维机制引入音频理解和生成任务中。MiMo-Audio-7B-Instruct在音频理解基准(MMSU、MMAU、MMAR、MMAU-Pro)、口语对话基准(Big Bench Audio、MultiChallenge Audio)以及指令式TTS评估中均取得了开源模型的最先进性能,接近或超越了闭源模型。模型检查点及完整评估套件发布于 https://github.com/XiaomiMiMo/MiMo-Audio。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员