Genre Controlled Music Generation via Activation Steering - 专知论文

会员服务 ·

0

音乐 · 可控 · 融合 · 变换 · 细粒度 ·

Genre Controlled Music Generation via Activation Steering

翻译：通过激活引导的体裁控制音乐生成

Swathi Narashiman,Pranay Mathur,Dipanshu Panda,Jayden Koshy Joe,Harshith M R,Anish Veerakumar,Aniruddh Krishna,Keerthiharan A

Computational Music Generation is evolving towards non-conventional styles, demanding methods that enable precise and controllable blending of diverse music elements. In this work, we present a method for fine grained control using inference-time interventions on an autoregressive generative transformer, MusicGen. Through our approach, we achieve genre control by steering the residual stream using weights of a linear probe on it. By framing activation steering as a human-controllable interaction, our work highlights how interpretable model behaviors can empower in co-creative music generation.Audio samples demonstrating our method are available on our demo page.

翻译：计算音乐生成正朝着非传统风格发展，需要能够精确且可控地融合多种音乐元素的方法。本文提出了一种方法，通过对自回归生成式Transformer MusicGen进行推理时干预实现细粒度控制。通过我们的方法，我们利用残差流上的线性探针权重进行引导，从而实现对音乐体裁的控制。将激活引导构建为人类可控的交互方式，本研究凸显了可解释的模型行为如何赋能协作式音乐生成。展示我们方法的音频样本可在我方演示页面获取。

0

相关内容

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

17+阅读 · 2025年4月30日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于等离子体合成射流激励的高超声速飞行器控制机理及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半导体表面非磁性原子修饰诱导磁性及其调控

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

Arxiv

0+阅读 · 6月10日

LiveBand: Live Accompaniment Generation in the Audio Domain

Arxiv

0+阅读 · 6月9日

EnchantDance: Unveiling the Potential of Music-Driven Dance Movement

Arxiv

0+阅读 · 6月6日

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

Arxiv

0+阅读 · 6月2日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月31日

Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation

Arxiv

0+阅读 · 5月29日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月28日

Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches

Arxiv

0+阅读 · 5月20日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

11+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

7+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

17+阅读 · 2025年4月30日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

【ETHZ博士论文】生成模型用于可控合成与在二维和三维中的操作，171页pdf

专知会员服务

23+阅读 · 2024年2月9日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【MIT博士论文】控制神经语言生成，147页pdf

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

Arxiv

0+阅读 · 6月10日

LiveBand: Live Accompaniment Generation in the Audio Domain

Arxiv

0+阅读 · 6月9日

EnchantDance: Unveiling the Potential of Music-Driven Dance Movement

Arxiv

0+阅读 · 6月6日

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

Arxiv

0+阅读 · 6月2日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月31日

Latent Space Disentanglement via Activation Steering for Interpretable Attribute Control in Symbolic Music Generation

Arxiv

0+阅读 · 5月29日

SegTune: Structured and Fine-Grained Control for Song Generation

Arxiv

0+阅读 · 5月28日

Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches

Arxiv

0+阅读 · 5月20日

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

Arxiv

0+阅读 · 5月20日

TADA! Tuning Audio Diffusion Models through Activation Steering

Arxiv

0+阅读 · 5月18日

相关基金

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于等离子体合成射流激励的高超声速飞行器控制机理及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

音乐哲理性概念的加工及其神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半导体表面非磁性原子修饰诱导磁性及其调控

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员