arXiv ID:
2605.19848
arXiv 提交日期: 2026-05-19
CLIF:面向透明瓶颈模型的概念级影响函数 / CLIF: Concept-Level Influence Functions for Transparent Bottleneck Models
1️⃣ 一句话总结
这篇论文提出了一种利用影响函数来提升深度学习模型可解释性的方法,不仅能找出对预测结果最有影响的训练样本(包括正面和负面),还首次在概念瓶颈模型中定位出关键概念,通过调整这些样本或概念即可改变模型行为,从而让模型的决策过程更加透明易懂。