Douyin Music, a large-scale platform with millions of daily users, adopts an immersive, feed-based discovery paradigm, where users passively explore music through continuous recommendations. While effective for passive music discovery, this paradigm restricts users to recommendation results and provides limited support for explicitly specifying listening intents. Unlike conventional search, where users express well-defined intents through explicit queries such as specific songs or artists, real-world active music discovery is often situational and colloquial, involving vague or underspecified requests. While LLMs enable natural language interaction, their direct use in music discovery remains limited by insufficient music-domain knowledge, lack of music-query collaborative reasoning, and shallow understanding of personalized preferences. To address these challenges, we introduce MuChator, an interactive MusicLLM-based framework that enables users to actively express situational music intents in natural language. MuChator incorporates three key components: (1) Music Knowledge Pre-training, a three-stage scheme that incrementally injects objective music knowledge, subjective music knowledge, and personalized music preferences into LLMs; (2) Context-aware Instruction Tuning, which constructs high-quality user-query-music triplets through an automated synthesis pipeline to align LLMs with active and situational user intents; and (3) Preference Alignment with Hybrid RM, which jointly models intent relevance, personalized preferences, and basic constraints, and is optimized using GRPO-based reinforcement learning. Extensive evaluations on industrial music recommendation datasets demonstrate that MuChator outperforms leading proprietary models, such as Gemini-3-Pro. The model has been deployed on Douyin Music App within ByteDance, with 46.49\% improvement of user active days in online A/B test.


翻译:抖音音乐作为一个拥有数百万日活跃用户的大型平台,采用沉浸式信息流发现范式,用户通过连续推荐被动探索音乐。尽管这种范式在被动音乐发现方面效果显著,但它将用户限制在推荐结果中,且对用户明确表达收听意图的支持有限。与传统搜索(用户通过具体歌曲或艺术家等明确查询表达清晰意图)不同,真实场景中的主动音乐发现往往是情境化和口语化的,涉及模糊或未充分指定的需求。虽然大语言模型(LLM)支持自然语言交互,但其在音乐发现中的直接应用仍受限于音乐领域知识不足、缺乏音乐与查询协同推理能力,以及对个性化偏好的浅层理解。为解决这些问题,我们提出MuChator——一种基于交互式MusicLLM的框架,使用户能够以自然语言主动表达情境化的音乐意图。MuChator包含三个关键组件:(1)音乐知识预训练——一种三阶段方案,逐步向LLM注入客观音乐知识、主观音乐知识和个性化音乐偏好;(2)上下文感知指令微调——通过自动化合成流水线构建高质量的用户-查询-音乐三元组,使LLM对齐主动且情境化的用户意图;(3)基于混合奖励模型的偏好对齐——联合建模意图相关性、个性化偏好和基本约束,并通过基于GRPO的强化学习进行优化。在工业级音乐推荐数据集上的广泛评估表明,MuChator优于Gemini-3-Pro等领先商业模型。该模型已在字节跳动旗下的抖音音乐App中部署,在线A/B测试显示用户活跃天数提升46.49%。

0
下载
关闭预览

相关内容

音乐,广义而言,指精心组织声音,并将其排布在时间和空间上的艺术类型。
【WWW2025】释放大型语言模型在去噪推荐中的强大能力
专知会员服务
13+阅读 · 2025年2月18日
【IJCAI2024教程】大语言模型(LLMs)时代的推荐系统
专知会员服务
51+阅读 · 2024年8月5日
专知会员服务
22+阅读 · 2021年4月1日
个性化推荐系统技术进展
专知会员服务
66+阅读 · 2020年8月15日
带你动手搭建一个音乐推荐系统
机器学习与推荐算法
11+阅读 · 2020年7月14日
重磅!抖音影响力排行榜来啦!| 新榜出品
推荐|网易云音乐分析之推荐算法
人人都是产品经理
10+阅读 · 2018年2月26日
快手类推荐系统实践
深度学习与NLP
25+阅读 · 2018年2月8日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
27+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 49分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关资讯
带你动手搭建一个音乐推荐系统
机器学习与推荐算法
11+阅读 · 2020年7月14日
重磅!抖音影响力排行榜来啦!| 新榜出品
推荐|网易云音乐分析之推荐算法
人人都是产品经理
10+阅读 · 2018年2月26日
快手类推荐系统实践
深度学习与NLP
25+阅读 · 2018年2月8日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
27+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员