Speech-based machine learning systems are sensitive to noise, complicating reliable deployment in emotion recognition and voice pathology detection. We evaluate the robustness of a hybrid quantum machine learning model, quanvolutional neural networks (QNNs) against classical convolutional neural networks (CNNs) under four acoustic corruptions (Gaussian noise, pitch shift, temporal shift, and speed variation) in a clean-train/corrupted-test regime. Using AVFAD (voice pathology) and TESS (speech emotion), we compare three QNN models (Random, Basic, Strongly) to a simple CNN baseline (CNN-Base), ResNet-18 and VGG-16 using accuracy and corruption metrics (CE, mCE, RCE, RmCE), and analyze architectural factors (circuit complexity or depth, convergence) alongside per-emotion robustness. QNNs generally outperform the CNN-Base under pitch shift, temporal shift, and speed variation (up to 22% lower CE/RCE at severe temporal shift), while the CNN-Base remains more resilient to Gaussian noise. Among quantum circuits, QNN-Basic achieves the best overall robustness on AVFAD, and QNN-Random performs strongest on TESS. Emotion-wise, fear is most robust (80-90% accuracy under severe corruptions), neutral can collapse under strong Gaussian noise (5.5% accuracy), and happy is most vulnerable to pitch, temporal, and speed distortions. QNNs also converge up to six times faster than the CNN-Base. To our knowledge, this is a systematic study of QNN robustness for speech under common non-adversarial acoustic corruptions, indicating that shallow entangling quantum front-ends can improve noise resilience while sensitivity to additive noise remains a challenge.


翻译:基于语音的机器学习系统对噪声敏感,这阻碍了其在情感识别和嗓音病理检测中的可靠部署。我们评估了一种混合量子机器学习模型——量子卷积神经网络(QNNs)的鲁棒性,并与经典卷积神经网络(CNNs)在四种声学干扰(高斯噪声、音高偏移、时间偏移和语速变化)下进行对比,采用干净训练/干扰测试范式。使用AVFAD(嗓音病理)和TESS(语音情感)数据集,我们将三种QNN模型(随机、基础、强纠缠)与一个简单的CNN基线(CNN-Base)、ResNet-18和VGG-16进行比较,采用准确率和干扰度量指标(CE、mCE、RCE、RmCE),并分析了架构因素(电路复杂度或深度、收敛性)以及针对每种情感的鲁棒性。QNNs在音高偏移、时间偏移和语速变化下普遍优于CNN-Base(在严重时间偏移下CE/RCE降低高达22%),而CNN-Base对高斯噪声仍更具抵抗力。在量子电路中,QNN-Basic在AVFAD上实现了最佳的整体鲁棒性,而QNN-Random在TESS上表现最强。就具体情感而言,恐惧最鲁棒(在严重干扰下准确率达80-90%),中性情感在强高斯噪声下可能崩溃(准确率5.5%),而快乐情感对音高、时间和语速失真最敏感。QNNs的收敛速度也比CNN-Base快达六倍。据我们所知,这是对QNN在常见非对抗性声学干扰下语音任务鲁棒性的首次系统性研究,表明浅层纠缠量子前端可以提升噪声鲁棒性,但对加性噪声的敏感性仍是挑战。

0
下载
关闭预览

相关内容

图机器学习的核心原理:表征、鲁棒性与泛化性
【牛津大学博士论文】图神经网络鲁棒机器学习,173页pdf
【Google AI】鲁棒图神经网络,Robust Graph Neural Networks
专知会员服务
38+阅读 · 2022年3月9日
专知会员服务
23+阅读 · 2021年7月15日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
20+阅读 · 2020年11月6日
专知会员服务
29+阅读 · 2020年8月8日
专知会员服务
81+阅读 · 2020年8月4日
【中科院计算所】图卷积神经网络及其应用
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
【干货】使用Pytorch实现卷积神经网络
专知
13+阅读 · 2018年5月12日
卷积神经网络的最佳解释!
专知
12+阅读 · 2018年5月1日
【回顾】深度学习系列之二:卷积神经网络
AI研习社
20+阅读 · 2017年12月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员