Post-hoc explanations provide transparency and are essential for guiding model optimization, such as prompt engineering and data sanitation. However, applying model-agnostic techniques to Large Language Models (LLMs) is hindered by prohibitive computational costs, rendering these tools dormant for real-world applications. To revitalize model-agnostic interpretability, we propose a budget-friendly proxy framework that leverages efficient models to approximate the decision boundaries of expensive LLMs. We introduce a screen-and-apply mechanism to statistically verify local alignment before deployment. Our empirical evaluation confirms that proxy explanations achieve over 90% fidelity with only 11% of the oracle's cost. Building on this foundation, we demonstrate the actionable utility of our framework in prompt compression and poisoned example removal. Results show that reliable proxy explanations effectively guide optimization, transforming interpretability from a passive observation tool into a scalable primitive for LLM development. Additionally, we open-source code and datasets to facilitate future research.


翻译:事后解释方法为模型优化(如提示工程和数据清洗)提供了透明度与指导,但在应用于大型语言模型时,模型无关技术因计算成本过高而受到限制,导致这些工具在实际应用中处于休眠状态。为重新激活模型无关的可解释性,我们提出一种经济高效的代理框架,利用高效模型来逼近昂贵大型语言模型的决策边界。我们引入一种筛选应用机制,在部署前通过统计方法验证局部对齐性。实证评估表明,代理解释能以仅11%的基准成本实现超过90%的保真度。基于此框架,我们展示了其在提示压缩和污染样本剔除中的可操作效用。结果表明,可靠的代理解释能有效指导优化过程,将可解释性从被动观察工具转化为大型语言模型开发的可扩展基础组件。此外,我们开源了相关代码与数据集以促进后续研究。

0
下载
关闭预览

相关内容

可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
172+阅读 · 2020年5月27日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员