How Does a Deep Neural Network Look at Lexical Stress in English Words? - 专知论文

会员服务 ·

0

重音 · 音节 · 分析 · 神经网络 · 识别 ·

How Does a Deep Neural Network Look at Lexical Stress in English Words?

翻译：深度神经网络如何识别英语单词中的词汇重音？

Itai Allouche,Itay Asael,Rotem Rousso,Vered Dassa,Ann Bradlow,Seung-Eun Kim,Matthew Goldrick,Joseph Keshet

from arxiv, 11 pages, 5 figures, submitted to the Journal of the Acoustical Society of America (JASA)

Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacking minimal stress pairs (e.g., initial stress WAllet, final stress exTEND), achieving up to 92% accuracy on held-out test data. Layerwise Relevance Propagation (LRP), a technique for CNN interpretability analysis, revealed that predictions for held-out minimal pairs (PROtest vs. proTEST ) were most strongly influenced by information in stressed versus unstressed syllables, particularly the spectral properties of stressed vowels. However, the classifiers also attended to information throughout the word. A feature-specific relevance analysis is proposed, and its results suggest that our best-performing classifier is strongly influenced by the stressed vowel's first and second formants, with some evidence that its pitch and third formant also contribute. These results reveal deep learning's ability to acquire distributed cues to stress from naturally occurring data, extending traditional phonetic work based around highly controlled stimuli.

翻译：尽管神经网络在语音处理领域取得了显著成功，但其通常以黑箱方式运行，这引发了一个关键问题：是什么信息支撑了它们的决策，我们应如何解释这些决策？本研究在词汇重音的语境下探讨了这一问题。我们从朗读语音和自发语音中自动构建了一个英语双音节词数据集。我们训练了多种卷积神经网络（CNN）架构，旨在从缺乏最小重音对（例如，首音节重音的 WAllet 与末音节重音的 exTEND）的双音节词语谱图表示中预测重音位置，在留出的测试数据上达到了高达92%的准确率。层相关性传播（LRP）是一种用于CNN可解释性分析的技术，其分析显示，对于留出的最小对（PROtest 与 proTEST）的预测，最强烈地受到重读音节与非重读音节中信息的影响，尤其是重读元音的频谱特性。然而，分类器也关注了整个单词范围内的信息。我们提出了一种针对特定特征的相关性分析方法，其结果表明，我们性能最佳的分类器受到重读元音的第一和第二共振峰的强烈影响，并有证据表明其音高和第三共振峰也起到一定作用。这些结果揭示了深度学习能够从自然发生的数据中获取关于重音的分布式线索，从而扩展了基于高度受控刺激的传统语音学研究。

0

相关内容

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

专知会员服务

53+阅读 · 2024年10月26日

【博士论文】通过利用内在方法解释深度神经网络

【博士论文】通过利用内在方法解释深度神经网络

专知会员服务

25+阅读 · 2024年7月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

【MIT】理解深度学习网络里单个神经元的作用

【MIT】理解深度学习网络里单个神经元的作用

专知会员服务

29+阅读 · 2020年9月12日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

北京思腾合力科技有限公司

17+阅读 · 2017年10月28日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

Modal Logical Neural Networks

Arxiv

0+阅读 · 2月12日

PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition

Arxiv

0+阅读 · 2月9日

How Do Language Models Acquire Character-Level Information?

Arxiv

0+阅读 · 2月5日

Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG

Arxiv

0+阅读 · 2月3日

Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages

Arxiv

0+阅读 · 2月1日

Identifiability of Deep Polynomial Neural Networks

Arxiv

0+阅读 · 1月30日

Ensuring Semantics in Weights of Implicit Neural Representations through the Implicit Function Theorem

Arxiv

0+阅读 · 1月30日

Lightweight Implicit Neural Network for Binaural Audio Synthesis

Arxiv

0+阅读 · 1月23日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

9+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

专知会员服务

53+阅读 · 2024年10月26日

【博士论文】通过利用内在方法解释深度神经网络

【博士论文】通过利用内在方法解释深度神经网络

专知会员服务

25+阅读 · 2024年7月20日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

【MIT】理解深度学习网络里单个神经元的作用

【MIT】理解深度学习网络里单个神经元的作用

专知会员服务

29+阅读 · 2020年9月12日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

北京思腾合力科技有限公司

17+阅读 · 2017年10月28日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

Modal Logical Neural Networks

Arxiv

0+阅读 · 2月12日

PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition

Arxiv

0+阅读 · 2月9日

How Do Language Models Acquire Character-Level Information?

Arxiv

0+阅读 · 2月5日

Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG

Arxiv

0+阅读 · 2月3日

Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages

Arxiv

0+阅读 · 2月1日

Identifiability of Deep Polynomial Neural Networks

Arxiv

0+阅读 · 1月30日

Ensuring Semantics in Weights of Implicit Neural Representations through the Implicit Function Theorem

Arxiv

0+阅读 · 1月30日

Lightweight Implicit Neural Network for Binaural Audio Synthesis

Arxiv

0+阅读 · 1月23日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员