This study investigates robust speech-related decoding from non-invasive MEG signals using the LibriBrain phoneme-classification benchmark from the 2025 PNPL competition. We compare residual convolutional neural networks (CNNs), an STFT-based CNN, and a CNN--Transformer hybrid, while also examining the effects of group averaging, label balancing, repeated grouping, normalization strategies, and data augmentation. Across our in-house implementations, preprocessing and data-configuration choices matter more than additional architectural complexity, among which instance normalization emerges as the most influential modification for generalization. The strongest of our own models, a CNN with group averaging, label balancing, repeated grouping, and instance normalization, achieves 60.95% F1-macro on the test split, compared with 39.53% for the plain CNN baseline. However, most of our models, without instance normalization, show substantial validation-to-test degradation, indicating that distribution shift induced by different normalization statistics is a major obstacle to generalization in our experiments. By contrast, MEGConformer maintains 64.09% F1-macro on both validation and test, and saliency-map analysis is qualitatively consistent with this contrast: weaker models exhibit more concentrated or repetitive phoneme-sensitive patterns across splits, whereas MEGConformer appears more distributed. Overall, the results suggest that improving the reliability of non-invasive phoneme decoding will likely require better handling of normalization-related distribution shift while also addressing the challenge of single-trial decoding.


翻译:本研究基于2025年PNPL竞赛中的LibriBrain音素分类基准,探究从非侵入式MEG信号中进行鲁棒语音解码的方法。我们比较了残差卷积神经网络(CNN)、基于STFT的CNN以及CNN-Transformer混合模型,同时考察了组平均、标签平衡、重复分组、归一化策略和数据增强的影响。在我们的内部实现中,预处理和数据配置选择比额外的架构复杂性更为关键,其中实例归一化成为对泛化能力影响最大的修改。我们最强模型(采用组平均、标签平衡、重复分组和实例归一化的CNN)在测试集上达到60.95%的F1宏观平均值,而普通CNN基线仅为39.53%。然而,未使用实例归一化的大部分模型在验证集到测试集上出现显著性能下降,表明由不同归一化统计量引发的分布偏移是我们实验中泛化能力的主要障碍。相比之下,MEGConformer在验证集和测试集上均保持64.09%的F1宏观平均值,且显著图分析在定性上与这一对比一致:较弱模型在不同分割中表现出更集中或重复的音素敏感模式,而MEGConformer的分布则更为分散。总体结果表明,提升非侵入式音素解码的可靠性需要更好地处理与归一化相关的分布偏移,同时应对单试次解码的挑战。

0
下载
关闭预览

相关内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
面向图像分类的对抗鲁棒性评估综述
专知会员服务
59+阅读 · 2022年10月15日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
微信美女研究员:详解CNN在语音识别中的应用
机械鸡
13+阅读 · 2017年7月28日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月13日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
微信美女研究员:详解CNN在语音识别中的应用
机械鸡
13+阅读 · 2017年7月28日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员