A Survey on Cross-Modal Interaction Between Music and Multimodal Data - 专知论文

会员服务 ·

0

音乐 · 模态 · 交互 · 多模 · 跨模态 ·

A Survey on Cross-Modal Interaction Between Music and Multimodal Data

翻译：音乐与多模态数据跨模态交互研究综述

Sifei Li,Mining Tan,Feier Shen,Minyan Luo,Zijiao Yin,Fan Tang,Weiming Dong,Changsheng Xu

from arxiv, 34 pages, 7 figures

Multimodal learning has driven innovation across various industries, particularly in the field of music. By enabling more intuitive interaction experiences and enhancing immersion, it not only lowers the entry barriers to the music but also increases its overall appeal. This survey aims to provide a comprehensive review of multimodal tasks related to music, outlining how music contributes to multimodal learning and offering insights for researchers seeking to expand the boundaries of computational music. Unlike text and images, which are often semantically or visually intuitive, music primarily interacts with humans through auditory perception, making its data representation inherently less intuitive. Therefore, this paper first introduces the representations of music and provides an overview of music datasets. Subsequently, we categorize cross-modal interactions between music and multimodal data into three types: music-driven cross-modal interactions, music-oriented cross-modal interactions, and bidirectional music cross-modal interactions. For each category, we systematically trace the development of relevant sub-tasks, analyze existing limitations, and discuss emerging trends. Furthermore, we provide a comprehensive summary of datasets and evaluation metrics used in multimodal tasks related to music, offering benchmark references for future research. Finally, we discuss the current challenges in cross-modal interactions involving music and propose potential directions for future research.

翻译：多模态学习推动了各行业的创新，尤其在音乐领域。通过实现更直观的交互体验并增强沉浸感，它不仅降低了音乐创作的门槛，也提升了其整体吸引力。本文旨在系统综述与音乐相关的多模态任务，阐明音乐如何促进多模态学习，并为寻求拓展计算音乐边界的研究者提供见解。与通常在语义或视觉上直观的文本和图像不同，音乐主要通过听觉感知与人交互，其数据表征本质上较不直观。因此，本文首先介绍音乐的表征方法，并概述音乐数据集。随后，我们将音乐与多模态数据的跨模态交互分为三类：音乐驱动的跨模态交互、面向音乐的跨模态交互以及双向音乐跨模态交互。针对每种类别，我们系统追溯相关子任务的发展历程，分析现有局限性，并探讨新兴趋势。此外，我们全面总结了音乐相关多模态任务中使用的数据集和评估指标，为未来研究提供基准参考。最后，我们讨论了当前音乐跨模态交互面临的挑战，并提出了未来研究的潜在方向。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

24+阅读 · 1月17日

大规模多模态模型数据集、应用类别与分类学综述

大规模多模态模型数据集、应用类别与分类学综述

专知会员服务

58+阅读 · 2024年12月25日

低质量数据的多模态融合综述

低质量数据的多模态融合综述

专知会员服务

59+阅读 · 2024年5月4日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

186+阅读 · 2022年4月12日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

浙大最新「多模态深度学习」综述论文，35页pdf概述MDL进展

专知会员服务

147+阅读 · 2021年6月8日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach

Arxiv

0+阅读 · 4月19日

MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions

Arxiv

0+阅读 · 2月19日

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

Arxiv

10+阅读 · 2024年2月8日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation

Arxiv

27+阅读 · 2023年10月24日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions

Arxiv

16+阅读 · 2023年2月9日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

VIP会员

文章信息

相关主题

最新内容

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

2+阅读 · 今天14:39

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

2+阅读 · 今天14:00

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

4+阅读 · 今天13:20

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

4+阅读 · 今天13:16

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

11+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

7+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

相关VIP内容

【CMU博士论文】迈向数据高效的多模态学习

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

24+阅读 · 1月17日

大规模多模态模型数据集、应用类别与分类学综述

大规模多模态模型数据集、应用类别与分类学综述

专知会员服务

58+阅读 · 2024年12月25日

低质量数据的多模态融合综述

低质量数据的多模态融合综述

专知会员服务

59+阅读 · 2024年5月4日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

186+阅读 · 2022年4月12日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

浙大最新「多模态深度学习」综述论文，35页pdf概述MDL进展

专知会员服务

147+阅读 · 2021年6月8日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

帕兰蒂尔Maven：军事人工智能的新纪元

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

算法化战争：人工智能时代的新范式（万字长文）

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

相关论文

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach

Arxiv

0+阅读 · 4月19日

MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions

Arxiv

0+阅读 · 2月19日

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

Arxiv

10+阅读 · 2024年2月8日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation

Arxiv

27+阅读 · 2023年10月24日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions

Arxiv

16+阅读 · 2023年2月9日

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Arxiv

20+阅读 · 2023年2月1日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多标签流形学习的中国古典音乐情感分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员