成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
可解释性
关注
81
广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息,也就是说一个人能够持续预测模型结果的程度。按照可解释性方法进行的过程进行划分的话,大概可以划分为三个大类: 在建模之前的可解释性方法,建立本身具备可解释性的模型,在建模之后使用可解释性方法对模型作出解释。
综合
百科
VIP
热门
动态
论文
精华
Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
Arxiv
0+阅读 · 1月6日
X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
Arxiv
0+阅读 · 1月6日
MAFS: Multi-head Attention Feature Selection for High-Dimensional Data via Deep Fusion of Filter Methods
Arxiv
0+阅读 · 1月6日
HEXAR: a Hierarchical Explainability Architecture for Robots
Arxiv
0+阅读 · 1月6日
Bridging Mechanistic Interpretability and Prompt Engineering with Gradient Ascent for Interpretable Persona Control
Arxiv
0+阅读 · 1月6日
When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability
Arxiv
0+阅读 · 1月6日
Transparent Semantic Change Detection with Dependency-Based Profiles
Arxiv
0+阅读 · 1月6日
Interpretability-Guided Bi-objective Optimization: Aligning Accuracy and Explainability
Arxiv
0+阅读 · 1月6日
Temporal Kolmogorov-Arnold Networks (T-KAN) for High-Frequency Limit Order Book Forecasting: Efficiency, Interpretability, and Alpha Decay
Arxiv
0+阅读 · 1月5日
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
Arxiv
0+阅读 · 1月4日
Univariate-Guided Interaction Modeling
Arxiv
0+阅读 · 1月1日
IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
Arxiv
0+阅读 · 1月2日
Interpretability-Guided Bi-objective Optimization: Aligning Accuracy and Explainability
Arxiv
0+阅读 · 1月2日
Triangulation as an Acceptance Rule for Multilingual Mechanistic Interpretability
Arxiv
0+阅读 · 2025年12月31日
Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs
Arxiv
0+阅读 · 2025年12月30日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top