Interpretability remains a key challenge for deploying large language models (LLMs) in clinical settings such as Alzheimer's disease progression diagnosis, where early and trustworthy predictions are essential. Existing attribution methods exhibit high inter-method variability and unstable explanations due to the polysemantic nature of LLM representations, while mechanistic interpretability approaches lack direct alignment with model inputs and outputs and do not provide explicit importance scores. We introduce a unified interpretability framework that integrates attributional and mechanistic perspectives through monosemantic feature extraction. By constructing a monosemantic embedding space at the level of an LLM layer and optimizing the framework to explicitly reduce inter-method variability, our approach produces stable input-level importance scores and highlights salient features via a decompressed representation of the layer of interest, advancing the safe and trustworthy application of LLMs in cognitive health and neurodegenerative disease.


翻译:在阿尔茨海默病进展诊断等临床场景中,早期且可信的预测至关重要,而可解释性仍是部署大语言模型所面临的核心挑战。现有归因方法因大语言模型表征的多义性而存在方法间高变异性和解释不稳定的问题;机制可解释性方法则缺乏与模型输入输出的直接对齐,且无法提供显式重要性评分。本文提出一种统一的可解释性框架,通过单义特征提取融合归因视角与机制视角。该框架在大语言模型单层级别构建单义嵌入空间,并通过显式优化降低方法间变异性,从而生成稳定的输入级重要性评分,同时通过目标层的解压缩表征突出关键特征。这一研究推动了大语言模型在认知健康与神经退行性疾病领域的安全可信应用。

0
下载
关闭预览

相关内容

稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
卷积神经网络的可解释性研究综述
专知会员服务
90+阅读 · 2023年6月5日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
卷积神经网络的可解释性研究综述
专知会员服务
90+阅读 · 2023年6月5日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员