arXiv ID:
2605.02234
arXiv 提交日期: 2026-05-04
区分好苹果:一种诊断与改进因果抽象的方法 / Bucketing the Good Apples: A Method for Diagnosing and Improving Causal Abstraction
1️⃣ 一句话总结
本文提出一种方法,通过将输入数据划分为“解释良好”与“解释不足”两个区域,来定位神经网络中因果解释的弱点,并利用这些区域的差异自动改进解释,使得原本只能整体评价的解释方法变得可以诊断和优化。