面向临床神经科学大语言模型的单义归因框架：实现稳定可解释性 (A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models) - 专知论文

会员服务 ·

0

语言模型 · 可解释性 · 变异性 · 科学大语言模型 · 大语言模型 ·

A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models

翻译：面向临床神经科学大语言模型的单义归因框架：实现稳定可解释性

Michail Mamalakis,Tiago Azevedo,Cristian Cosentino,Chiara D'Ercoli,Subati Abulikemu,Zhongtian Sun,Richard Bethlehem,Pietro Lio

Interpretability remains a key challenge for deploying large language models (LLMs) in clinical settings such as Alzheimer's disease progression diagnosis, where early and trustworthy predictions are essential. Existing attribution methods exhibit high inter-method variability and unstable explanations due to the polysemantic nature of LLM representations, while mechanistic interpretability approaches lack direct alignment with model inputs and outputs and do not provide explicit importance scores. We introduce a unified interpretability framework that integrates attributional and mechanistic perspectives through monosemantic feature extraction. By constructing a monosemantic embedding space at the level of an LLM layer and optimizing the framework to explicitly reduce inter-method variability, our approach produces stable input-level importance scores and highlights salient features via a decompressed representation of the layer of interest, advancing the safe and trustworthy application of LLMs in cognitive health and neurodegenerative disease.

翻译：在阿尔茨海默病进展诊断等临床场景中，早期且可信的预测至关重要，而可解释性仍是部署大语言模型所面临的核心挑战。现有归因方法因大语言模型表征的多义性而存在方法间高变异性和解释不稳定的问题；机制可解释性方法则缺乏与模型输入输出的直接对齐，且无法提供显式重要性评分。本文提出一种统一的可解释性框架，通过单义特征提取融合归因视角与机制视角。该框架在大语言模型单层级别构建单义嵌入空间，并通过显式优化降低方法间变异性，从而生成稳定的输入级重要性评分，同时通过目标层的解压缩表征突出关键特征。这一研究推动了大语言模型在认知健康与神经退行性疾病领域的安全可信应用。

0

相关内容

语言模型

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

90+阅读 · 2023年6月5日

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

专知会员服务

16+阅读 · 2022年11月28日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于潜在类别回归模型的失眠中医人群特征分类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Arxiv

0+阅读 · 2月19日

Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy

Arxiv

0+阅读 · 2月19日

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

Arxiv

0+阅读 · 2月12日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation

Arxiv

0+阅读 · 1月26日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月22日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月20日

Enabling Global, Human-Centered Explanations for LLMs:From Tokens to Interpretable Code and Test Generation

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

科学大语言模型

大语言模型

最新内容

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

5+阅读 · 今天8:10

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

2+阅读 · 今天7:40

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

12+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

5+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

3+阅读 · 4月14日

世界无人无线电情报系统经验分析与实验实现（研究论文）

世界无人无线电情报系统经验分析与实验实现（研究论文）

专知会员服务

7+阅读 · 4月14日

大规模作战行动中的战术作战评估（研究论文）

大规模作战行动中的战术作战评估（研究论文）

专知会员服务

8+阅读 · 4月14日

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

（中文长文）城市战与小部队城市战术：来自俄乌战争的观察

专知会员服务

5+阅读 · 4月14日

未来的海战无人自主系统

未来的海战无人自主系统

专知会员服务

3+阅读 · 4月14日

美军多域作战现状分析：战略、概念还是幻想？

美军多域作战现状分析：战略、概念还是幻想？

专知会员服务

5+阅读 · 4月14日

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

21+阅读 · 4月14日

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

19+阅读 · 4月14日

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

7+阅读 · 4月14日

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

9+阅读 · 4月14日

相关VIP内容

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

90+阅读 · 2023年6月5日

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

Patterns | 可解释图神经网络在药物性质预测问题上的定量评估研究

专知会员服务

16+阅读 · 2022年11月28日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

内省扩散语言模型

战争机器学习：数据生态系统构建（155页）

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

相关资讯

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Arxiv

0+阅读 · 2月19日

Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy

Arxiv

0+阅读 · 2月19日

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

Arxiv

0+阅读 · 2月12日

Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture

Arxiv

0+阅读 · 2月8日

DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

Arxiv

0+阅读 · 2月5日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation

Arxiv

0+阅读 · 1月26日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月22日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月20日

Enabling Global, Human-Centered Explanations for LLMs:From Tokens to Interpretable Code and Test Generation

Arxiv

0+阅读 · 1月14日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于潜在类别回归模型的失眠中医人群特征分类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员