Recent advancements in audio tokenization have significantly enhanced the integration of audio capabilities into large language models (LLMs). However, audio understanding and generation are often treated as distinct tasks, hindering the development of truly unified audio-language models. While instruction tuning has demonstrated remarkable success in improving generalization and zero-shot learning across text and vision, its application to audio remains largely unexplored. A major obstacle is the lack of comprehensive datasets that unify audio understanding and generation. To address this, we introduce Audio-FLAN, a large-scale instruction-tuning dataset covering 80 diverse tasks across speech, music, and sound domains, with over 100 million instances. Audio-FLAN lays the foundation for unified audio-language models that can seamlessly handle both understanding (e.g., transcription, comprehension) and generation (e.g., speech, music, sound) tasks across a wide range of audio domains in a zero-shot manner. The Audio-FLAN dataset is available on HuggingFace and GitHub.


翻译:近期音频分词化的进展显著提升了将音频能力集成到大语言模型中的水平。然而,音频理解与生成往往被当作独立任务处理,阻碍了真正统一音频语言模型的发展。尽管指令微调在文本与视觉领域已展现出提升泛化能力和零样本学习的显著成效,但其在音频领域的应用仍鲜有探索。其主要障碍在于缺乏能够统一音频理解与生成的综合数据集。为解决这一问题,我们提出音频-FLAN——一个大规模指令微调数据集,覆盖语音、音乐与声音领域的80项多样任务,包含超过1亿条实例。音频-FLAN为统一音频语言模型奠定基础,此类模型能够以零样本方式无缝处理跨多种音频领域的理解任务(如转录、理解)与生成任务(如语音、音乐、声音)。音频-FLAN数据集已发布于HuggingFace和GitHub。

0
下载
关闭预览

相关内容

音视频大数据基础模型全面综述
专知会员服务
9+阅读 · 5月7日
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员