A Hierarchical Feature Engineering Framework for Automated Classification of Phonotraumatic and Non-Phonotraumatic Vocal Hyperfunction - 专知论文

会员服务 ·

0

交互 · 耦合 · AUC · 加速度信号 · 无创监测 ·

A Hierarchical Feature Engineering Framework for Automated Classification of Phonotraumatic and Non-Phonotraumatic Vocal Hyperfunction

翻译：面向音创伤性与非音创伤性嗓音亢进的层级化特征工程框架自动分类方法

June-Woo Kim,Kangwook Jang,Minu Kim,Hyunju Lee

from arxiv, Interspeech 2026

Ambulatory neck-surface acceleration enables non-invasive monitoring of vocal hyperfunction, yet robust biomarkers for its subtypes remain limited. This study investigates the NeckVibe Challenge dataset to distinguish phonotraumatic (PVH) and non-phonotraumatic (NPVH) from healthy controls. We propose a hierarchical feature engineering framework comprising: (i) static, (ii) dynamic, (iii) ratio-based, (iv) coupling features capturing source filter interactions. While univariate statistical analysis shows strong separability for PVH but limited significance for NPVH, our machine learning pipeline, tailored for high-dimensional feature integration, identifies that coupling features are crucial for both tasks. We achieve an AUC of 0.891 for PVH and 0.728 for NPVH, suggesting that while PVH is near-linearly separable, NPVH discrimination benefits from modeling non-linear feature interactions.

翻译：可穿戴颈部加速度信号可无创监测嗓音亢进，然而其亚型的稳健生物标志物仍较为有限。本研究基于NeckVibe挑战数据集，探索区分音创伤性嗓音亢进（PVH）、非音创伤性嗓音亢进（NPVH）与健康对照组的特征模式。我们提出包含以下四类特征的层级化特征工程框架：（i）静态特征、（ii）动态特征、（iii）比率特征、（iv）表征声源-滤波器交互的耦合特征。单变量统计分析显示，PVH组呈现强可分性，而NPVH组统计显著性有限；但面向高维特征集成优化的机器学习流程表明，耦合特征对两种分类任务均至关重要。最终模型在PVH分类中达到0.891的AUC值，在NPVH分类中达到0.728的AUC值，这表明PVH具有近似线性可分性，而NPVH的判别则得益于对非线性特征交互的建模。

0

相关内容

《基于枪击录音声学分析的枪支类型层级破译》

《基于枪击录音声学分析的枪支类型层级破译》

专知会员服务

13+阅读 · 2025年7月9日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

专知会员服务

25+阅读 · 2022年5月18日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

基于时频分析和非线性系统识别的建筑结构地震损伤识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

拷贝数变异在中国遗传性耳聋人群中的分布及筛查策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

NVMOS: Non-Verbal Vocalization Quality Assessment in Speech

Arxiv

0+阅读 · 6月14日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

Arxiv

0+阅读 · 6月10日

Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

Arxiv

0+阅读 · 6月10日

A Comparison of SSL-Based Feature Extractors and Back-End Classifiers for Spoofing Detection: A Multi-Corpus Training and Cross-Linguistic Analysis

Arxiv

0+阅读 · 6月7日

Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening

Arxiv

0+阅读 · 6月1日

C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification

Arxiv

0+阅读 · 6月1日

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

Arxiv

0+阅读 · 5月27日

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

Arxiv

0+阅读 · 5月22日

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

加速度信号

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《基于枪击录音声学分析的枪支类型层级破译》

《基于枪击录音声学分析的枪支类型层级破译》

专知会员服务

13+阅读 · 2025年7月9日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

专知会员服务

25+阅读 · 2022年5月18日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

相关论文

NVMOS: Non-Verbal Vocalization Quality Assessment in Speech

Arxiv

0+阅读 · 6月14日

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

Arxiv

0+阅读 · 6月14日

Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

Arxiv

0+阅读 · 6月10日

Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

Arxiv

0+阅读 · 6月10日

A Comparison of SSL-Based Feature Extractors and Back-End Classifiers for Spoofing Detection: A Multi-Corpus Training and Cross-Linguistic Analysis

Arxiv

0+阅读 · 6月7日

Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening

Arxiv

0+阅读 · 6月1日

C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification

Arxiv

0+阅读 · 6月1日

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

Arxiv

0+阅读 · 5月27日

MixFake: Benchmarking and Enhancing Audio Deepfake Detection in Diverse Real-world Mixed Audio

Arxiv

0+阅读 · 5月22日

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Arxiv

0+阅读 · 5月5日

相关基金

基于时频分析和非线性系统识别的建筑结构地震损伤识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

拷贝数变异在中国遗传性耳聋人群中的分布及筛查策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员