arXiv ID:
2605.20337
arXiv 提交日期: 2026-05-19
能力不等于可解释性:视觉基础模型的人类可解释性 / Capability $\neq$ Interpretability: Human Interpretability of Vision Foundation Models
1️⃣ 一句话总结
本文通过两种心理物理学实验(局部定位和命名一致性)测量了六种主流视觉模型的可解释性,发现视觉基础模型(如DINOv2、CLIP等)虽然能力强,但其特征对人类而言反而不如早期有监督模型可解释,且可解释性与模型能力无关,而是取决于特征激活的局部性和粗粒度的语义对齐。