Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion - 专知论文

会员服务 ·

0

异构 · 异构图 · 多尺度 · 融合 · 混合 ·

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

翻译：儿童口吃-HGNN：一种面向多尺度声学融合的儿童语音不流畅检测混合异构图神经网络

Rashini Liyanarachchi,Rachael Mackay,Alison Short,Aditya Joshi,Erik Meijering

from arxiv, Accepted at INTERSPEECH 2026 (Main)

Automated stuttering detection (ASD) systems struggle with paediatric speech due to high acoustic variability in developing voices and the subtle distinction between pathological stuttering and typical developmental disfluencies. We introduce Paediatric-HGNN, a framework using a Context-aware Part-whole Interaction Network (CaPIN) tailored for paediatric data. Instead of conventional 1D signal modelling, our approach builds a heterogeneous graph capturing hierarchical relationships between lexical units (word nodes) and fine-grained acoustic segments (frame nodes). Trained on curated paediatric corpora (UCLASS and FluencyBank), Paediatric-HGNN achieves 82.4% weighted accuracy and a Typical Disfluency F1-score of 0.386. Modelling hierarchical lexical-acoustic interactions captures developmental "searching" behaviour, offering a more robust and interpretable tool for early clinical intervention.

翻译：自动口吃检测（ASD）系统在处理儿童语音时面临挑战，原因在于发育期声音的高声学变异性以及病理性口吃与典型发育性不流畅之间的细微差异。我们提出了儿童口吃-HGNN框架，该框架采用专为儿童数据定制的上下文感知部分-整体交互网络（CaPIN）。与传统的1D信号建模不同，我们的方法构建了一个异构图，用于捕捉词汇单元（词节点）与细粒度声学片段（帧节点）之间的层次关系。通过在精心整理的儿童语料库（UCLASS和FluencyBank）上训练，儿童口吃-HGNN实现了82.4%的加权准确率和0.386的典型不流畅F1分数。对层次化词汇-声学交互的建模能够捕捉发育期的“搜索”行为，从而为早期临床干预提供更稳健且可解释的工具。

0

相关内容

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

【MIT博士论文】用于口语处理的迁移学习，202页pdf

【MIT博士论文】用于口语处理的迁移学习，202页pdf

专知会员服务

28+阅读 · 2023年8月14日

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

专知会员服务

89+阅读 · 2022年10月3日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

11+阅读 · 2022年10月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

GAN生成式对抗网络

31+阅读 · 2019年3月26日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

儿童早期酞酸酯类暴露与脑源性神经生长因子交互作用对注意缺陷多动障碍易感性的前瞻性研究

国家自然科学基金

0+阅读 · 2016年12月31日

自闭症中基因拷贝数变异及其相互作用网络的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

F-actin结合蛋白在维甲酸诱导的舌肌发育不良中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时频分析和动态磁源成像技术的儿童失神癫痫高频振荡研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多层次系统研究SMN2基因表达的调控以开发治疗脊肌萎缩症的新途径

国家自然科学基金

0+阅读 · 2014年12月31日

非综合征型唇腭裂易感基因编码和拷贝数变异的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

Arxiv

0+阅读 · 6月15日

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

Arxiv

0+阅读 · 6月15日

Entropy-Aware Domain-Routed Mixture-of-Experts Speech-LLM Framework: A Case Study of Multi-Domain Child-Adult ASR

Arxiv

0+阅读 · 6月9日

Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning

Arxiv

0+阅读 · 6月8日

A Survey of Heterogeneous Graph Neural Networks for Cybersecurity Anomaly Detection

Arxiv

0+阅读 · 6月8日

Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

Arxiv

0+阅读 · 6月7日

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

Arxiv

0+阅读 · 6月4日

Context-aware child-directed speech detection from long-form recordings

Arxiv

0+阅读 · 5月31日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 5月27日

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

Arxiv

0+阅读 · 5月25日

VIP会员

文章信息

相关主题

最新内容

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

0+阅读 · 3分钟前

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

1+阅读 · 33分钟前

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

1+阅读 · 58分钟前

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

1+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

1+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

相关VIP内容

《口语语言模型研究现状：一项全面综述》

《口语语言模型研究现状：一项全面综述》

专知会员服务

16+阅读 · 2025年4月14日

【MIT博士论文】用于口语处理的迁移学习，202页pdf

【MIT博士论文】用于口语处理的迁移学习，202页pdf

专知会员服务

28+阅读 · 2023年8月14日

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

专知会员服务

89+阅读 · 2022年10月3日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【KDD2021 】基于协同对比学习的自监督异质图神经网络

专知会员服务

38+阅读 · 2021年5月28日

【KDD2021】具有共同对比学习的自监督异构图神经网络

专知会员服务

41+阅读 · 2021年5月24日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

21世纪的无人机战争

《量子技术的军事任务技术适配与利用》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《伊朗与以色列-美国热战及其对数字技术的影响》

相关资讯

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

11+阅读 · 2022年10月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

GAN生成式对抗网络

31+阅读 · 2019年3月26日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

Arxiv

0+阅读 · 6月15日

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

Arxiv

0+阅读 · 6月15日

Entropy-Aware Domain-Routed Mixture-of-Experts Speech-LLM Framework: A Case Study of Multi-Domain Child-Adult ASR

Arxiv

0+阅读 · 6月9日

Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning

Arxiv

0+阅读 · 6月8日

A Survey of Heterogeneous Graph Neural Networks for Cybersecurity Anomaly Detection

Arxiv

0+阅读 · 6月8日

Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

Arxiv

0+阅读 · 6月7日

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

Arxiv

0+阅读 · 6月4日

Context-aware child-directed speech detection from long-form recordings

Arxiv

0+阅读 · 5月31日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 5月27日

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

Arxiv

0+阅读 · 5月25日

相关基金

儿童早期酞酸酯类暴露与脑源性神经生长因子交互作用对注意缺陷多动障碍易感性的前瞻性研究

国家自然科学基金

0+阅读 · 2016年12月31日

自闭症中基因拷贝数变异及其相互作用网络的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

腭裂语音高鼻音等级自动识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

F-actin结合蛋白在维甲酸诱导的舌肌发育不良中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时频分析和动态磁源成像技术的儿童失神癫痫高频振荡研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多层次系统研究SMN2基因表达的调控以开发治疗脊肌萎缩症的新途径

国家自然科学基金

0+阅读 · 2014年12月31日

非综合征型唇腭裂易感基因编码和拷贝数变异的研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员