SNC: A Stem-Native Codec for Efficient Lossless Audio Storage with Adaptive Playback Capabilities - 专知论文

会员服务 ·

0

存储 · 自适应 · 编解码 · 编解码器 · 解码 ·

SNC: A Stem-Native Codec for Efficient Lossless Audio Storage with Adaptive Playback Capabilities

翻译：SNC：一种具有自适应播放能力的无损音频高效存储原生音轨编解码器

Current audio formats present a fundamental trade-off between file size and functionality: lossless formats like FLAC preserve quality but lack adaptability, while lossy formats reduce size at the cost of fidelity and offer no stem-level access.We introduce the Stem-Native Codec (SNC), a novel audio container format that stores music as independently encoded stems plus a low-energy mastering residual. By exploiting the lower information entropy of separated stems compared to mixed audio, SNC achieves a 38.2% file size reduction versus FLAC (7.76 MB vs. 12.55 MB for a 2:18 test track) while maintaining perceptual transparency (STOI = 0.996). Unlike existing formats, SNC enables context-aware adaptive playback, spatial audio rendering, and user-controlled remixing without requiring additional storage. Our experimental validation demonstrates that the stems-plus residual architecture successfully decouples the conflicting requirements of compression efficiency and feature richness, offering a practical path toward next-generation audio distribution systems.

翻译：当前音频格式在文件大小与功能之间存在根本性权衡：FLAC等无损格式虽能保持音质但缺乏适应性，而有损格式虽减小了文件尺寸却以牺牲保真度为代价，且无法提供音轨级访问。我们提出原生音轨编解码器（SNC），这是一种新型音频容器格式，可将音乐存储为独立编码的音轨加上低能量母带残差。通过利用分离音轨相较于混合音频具有更低信息熵的特性，SNC相比FLAC实现了38.2%的文件大小缩减（针对2分18秒测试曲目，从12.55 MB降至7.76 MB），同时保持感知透明度（STOI = 0.996）。与现有格式不同，SNC无需额外存储即可实现情境感知自适应播放、空间音频渲染和用户可控混音。我们的实验验证表明，音轨加残差架构成功解耦了压缩效率与功能丰富性之间的冲突需求，为下一代音频分发系统提供了可行路径。

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

专知会员服务

12+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

基于深度学习的信源信道联合编码方法综述

专知会员服务

33+阅读 · 2021年1月9日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

UBGAN: Enhancing Coded Speech with Blind and Guided Bandwidth Extension

Arxiv

0+阅读 · 2月24日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月23日

HybridPrompt: Bridging Generative Priors and Traditional Codecs for Mobile Streaming

Arxiv

0+阅读 · 2月19日

The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs

Arxiv

0+阅读 · 2月17日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Arxiv

0+阅读 · 2月11日

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

8+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

最浅显的奇异值分解(SVD)介绍，《Singular Value Decomposition as Simply as Possible》

专知会员服务

12+阅读 · 2022年3月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

自编码器及其应用综述

专知会员服务

37+阅读 · 2021年10月16日

基于深度学习的信源信道联合编码方法综述

专知会员服务

33+阅读 · 2021年1月9日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关论文

SemanticVocoder: Bridging Audio Generation and Audio Understanding via Semantic Latents

Arxiv

0+阅读 · 2月26日

UBGAN: Enhancing Coded Speech with Blind and Guided Bandwidth Extension

Arxiv

0+阅读 · 2月24日

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Arxiv

0+阅读 · 2月23日

HybridPrompt: Bridging Generative Priors and Traditional Codecs for Mobile Streaming

Arxiv

0+阅读 · 2月19日

The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs

Arxiv

0+阅读 · 2月17日

AudioX: A Unified Framework for Anything-to-Audio Generation

Arxiv

0+阅读 · 2月14日

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Arxiv

0+阅读 · 2月11日

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval

Arxiv

0+阅读 · 2月11日

Stemphonic: All-at-once Flexible Multi-stem Music Generation

Arxiv

0+阅读 · 2月10日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员