模型解释论文 - 专知

会员服务 ·

模型解释

任何机器学习模型的核心都有一个响应函数，它试图映射和解释独立（输入）变量和从属（目标或响应）变量之间的关系和模式。当模型预测或找到我们的见解时，需要做出某些决定和选择。模型解释试图理解和解释响应函数所做出的这些决策，即什么，为什么以及如何。模型解释的关键是透明度，质疑能力以及人类理解模型决策的难易程度。解释性也通常被称为机器学习模型的人类可解释性解释（HII），是人类（包括非机器学习专家）能够理解模型在决策过程中所做出的选择的程度（如何，为什么和什么）。在比较模型时，除了模型性能之外，如果模型的决策比其他模型的决策更容易被人理解，那么模型被认为比其他模型具有更好的可解释性。

Routing-Aware Explanations for Mixture of Experts Graph Models in Malware Detection

Arxiv

0+阅读 · 2月22日

Modelling Language using Large Language Models

Arxiv

0+阅读 · 3月11日

Translate Policy to Language: Flow Matching Generated Rewards for LLM Explanations

Arxiv

0+阅读 · 2月12日

Translate Policy to Language: Flow Matching Generated Rewards for LLM Explanations

Arxiv

0+阅读 · 2月11日

Training Language Models to Explain Their Own Computations

Arxiv

0+阅读 · 2月9日

Evaluating the Ability of Explanations to Disambiguate Models in a Rashomon Set

Arxiv

0+阅读 · 1月13日

HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations

Arxiv

0+阅读 · 1月20日

LangLasso: Interactive Cluster Descriptions through LLM Explanation

Arxiv

0+阅读 · 1月15日

Compact Example-Based Explanations for Language Models

Arxiv

0+阅读 · 1月7日

Extracting Policies from Quantified Answer Set Programs

Arxiv

0+阅读 · 1月7日

Believing without Seeing: Quality Scores for Contextualizing Vision-Language Model Explanations

Arxiv

0+阅读 · 1月7日

DeepLeak: Privacy Enhancing Hardening of Model Explanations Against Membership Leakage

Arxiv

0+阅读 · 1月6日

Grad-ELLM: Gradient-based Explanations for Decoder-only LLMs

Arxiv

0+阅读 · 1月6日

Training Language Models to Explain Their Own Computations

Arxiv

0+阅读 · 2025年12月30日

How Hard is it to Explain Preferences Using Few Boolean Attributes?

Arxiv

0+阅读 · 2025年11月17日

参考链接

微信扫码咨询专知VIP会员