arXiv ID:
2602.10352
arXiv 提交日期: 2026-02-10
从可解释性人工产物中学习自我解释:在向量-标签对上训练轻量级适配器 / Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过给冻结的大型语言模型加装一个极简的“翻译器”(适配器),就能让模型可靠地解释自己的内部工作过程,并且这种方法的效果会随着模型变大而变得更好。