Multimodal learning has driven innovation across various industries, particularly in the field of music. By enabling more intuitive interaction experiences and enhancing immersion, it not only lowers the entry barriers to the music but also increases its overall appeal. This survey aims to provide a comprehensive review of multimodal tasks related to music, outlining how music contributes to multimodal learning and offering insights for researchers seeking to expand the boundaries of computational music. Unlike text and images, which are often semantically or visually intuitive, music primarily interacts with humans through auditory perception, making its data representation inherently less intuitive. Therefore, this paper first introduces the representations of music and provides an overview of music datasets. Subsequently, we categorize cross-modal interactions between music and multimodal data into three types: music-driven cross-modal interactions, music-oriented cross-modal interactions, and bidirectional music cross-modal interactions. For each category, we systematically trace the development of relevant sub-tasks, analyze existing limitations, and discuss emerging trends. Furthermore, we provide a comprehensive summary of datasets and evaluation metrics used in multimodal tasks related to music, offering benchmark references for future research. Finally, we discuss the current challenges in cross-modal interactions involving music and propose potential directions for future research.


翻译:多模态学习推动了各行业的创新,尤其在音乐领域。通过实现更直观的交互体验并增强沉浸感,它不仅降低了音乐创作的门槛,也提升了其整体吸引力。本文旨在系统综述与音乐相关的多模态任务,阐明音乐如何促进多模态学习,并为寻求拓展计算音乐边界的研究者提供见解。与通常在语义或视觉上直观的文本和图像不同,音乐主要通过听觉感知与人交互,其数据表征本质上较不直观。因此,本文首先介绍音乐的表征方法,并概述音乐数据集。随后,我们将音乐与多模态数据的跨模态交互分为三类:音乐驱动的跨模态交互、面向音乐的跨模态交互以及双向音乐跨模态交互。针对每种类别,我们系统追溯相关子任务的发展历程,分析现有局限性,并探讨新兴趋势。此外,我们全面总结了音乐相关多模态任务中使用的数据集和评估指标,为未来研究提供基准参考。最后,我们讨论了当前音乐跨模态交互面临的挑战,并提出了未来研究的潜在方向。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
23+阅读 · 1月17日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
多模态深度学习综述,18页pdf
专知会员服务
220+阅读 · 2020年3月29日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
6+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
23+阅读 · 1月17日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
低质量数据的多模态融合综述
专知会员服务
59+阅读 · 2024年5月4日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
多模态深度学习综述,18页pdf
专知会员服务
220+阅读 · 2020年3月29日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员