arXiv ID:
2602.04718
arXiv 提交日期: 2026-02-04
通过正交正则化识别可干预与可解释的特征 / Identifying Intervenable and Interpretable Features via Orthogonality Regularization
1️⃣ 一句话总结
这篇论文提出了一种使用正交正则化的方法,在微调语言模型时让特征变得几乎正交,从而减少特征间的干扰,提升特征的可解释性和可干预性,同时保持模型性能基本不变。