MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis - 专知论文

会员服务 ·

0

模态 · 解码 · contrastive · 损失 · 输出 ·

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

翻译：MoDAl：基于去相关的自监督神经模态发现方法及其在言语神经假体中的应用

Yuanhao Chen,Peter Chin

Speech neuroprosthesis systems decode intended speech from neural activity in the absence of audible output, offering a path to restoring communication for individuals with speech-impairing conditions. Current approaches decode predominantly from motor cortical areas, discarding others -- such as area 44, part of Broca's area -- that may encode complementary linguistic information. We introduce MoDAl (Modality Decorrelation and Alignment), a framework that discovers complementary neural modalities through the interplay of two objectives in a shared projection space. A contrastive loss aligns each of several parallel brain encoders with the text embeddings of a pretrained large language model (LLM), while a decorrelation loss prevents the encoders from coalescing to duplicative representations. We prove that these objectives are in productive tension: Contrastive alignment induces transitive modality coalescence, which decorrelation must counteract for the framework to discover diverse neurolinguistic modalities. On the Brain-to-Text Benchmark '24, MoDAl reduces word error rate (WER) from 26.3% to 21.6% compared to the previous best end-to-end method, with the gain from incorporating previously discarded area 44 signals arising entirely from the decorrelation mechanism. Analysis of the discovered modalities reveals functional specialization: Encoders receiving area 44 input capture structural and syntactic properties (sentence length, grammatical voice, wh-words), consistent with the neurolinguistic understanding of Broca's area.

翻译：言语神经假体系统在没有可听输出的情况下，从神经活动中解码意图性言语，为言语障碍者恢复交流能力提供了途径。现有方法主要从运动皮层区域进行解码，而忽略了其他可能编码互补语言信息的脑区——如布罗卡区的44区。我们提出MoDAl（模态去相关与对齐）框架，通过共享投影空间中两个目标的相互作用发现互补的神经模态。对比损失将多个并行脑编码器与预训练大语言模型的文本嵌入对齐，而去相关损失则防止编码器形成冗余表征。我们证明这两个目标存在建设性张力：对比对齐会诱导模态的传递性聚合，而框架必须通过去相关来对抗这一过程，以发现多样化的神经语言学模态。在2024年脑到文本基准测试中，MoDAl将词错误率从26.3%降至21.6%（相比此前最佳端到端方法），其性能提升完全源于去相关机制对先前被忽略的44区信号的整合。对发现模态的分析揭示了功能特化：接收44区输入的编码器捕获了结构与句法属性（句子长度、语法语态、疑问词），这与布罗卡区的神经语言学认知高度一致。

0

相关内容

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

34+阅读 · 4月19日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

TPAMI 2023 | 无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

TPAMI 2023 | 无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

专知会员服务

31+阅读 · 2023年4月25日

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

专知会员服务

18+阅读 · 2022年4月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【MIT】语言的神经结构: 一体化建模集中于预测处理，42页ppt

专知会员服务

24+阅读 · 2021年5月30日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

光刺激实现神经纤维选择性刺激的方法研究及理论模拟

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Mordal: Automated Pretrained Model Selection for Vision Language Models

Arxiv

0+阅读 · 6月16日

MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

Arxiv

0+阅读 · 6月12日

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Arxiv

0+阅读 · 6月10日

MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs

Arxiv

0+阅读 · 6月5日

MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors

Arxiv

0+阅读 · 5月29日

Embodied Virtual Reality Feedback Reshapes Neural Representations to Support Continuous Three-Dimensional Motor Imagery Decoding

Arxiv

0+阅读 · 5月28日

MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents

Arxiv

0+阅读 · 5月22日

NeuroMAS: Multi-Agent Systems as Neural Networks with Joint Reinforcement Learning

Arxiv

0+阅读 · 5月16日

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

Arxiv

0+阅读 · 5月13日

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Arxiv

0+阅读 · 4月4日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

2+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

2+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

3+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

34+阅读 · 4月19日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

TPAMI 2023 | 无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

TPAMI 2023 | 无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

专知会员服务

31+阅读 · 2023年4月25日

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

专知会员服务

18+阅读 · 2022年4月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【MIT】语言的神经结构: 一体化建模集中于预测处理，42页ppt

专知会员服务

24+阅读 · 2021年5月30日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

相关论文

Mordal: Automated Pretrained Model Selection for Vision Language Models

Arxiv

0+阅读 · 6月16日

MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

Arxiv

0+阅读 · 6月12日

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Arxiv

0+阅读 · 6月10日

MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs

Arxiv

0+阅读 · 6月5日

MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors

Arxiv

0+阅读 · 5月29日

Embodied Virtual Reality Feedback Reshapes Neural Representations to Support Continuous Three-Dimensional Motor Imagery Decoding

Arxiv

0+阅读 · 5月28日

MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents

Arxiv

0+阅读 · 5月22日

NeuroMAS: Multi-Agent Systems as Neural Networks with Joint Reinforcement Learning

Arxiv

0+阅读 · 5月16日

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

Arxiv

0+阅读 · 5月13日

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Arxiv

0+阅读 · 4月4日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

光刺激实现神经纤维选择性刺激的方法研究及理论模拟

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员