arXiv ID:
2602.05859
arXiv 提交日期: 2026-02-05
DLM-Scope:基于稀疏自编码器的扩散语言模型机理可解释性框架 / DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders
1️⃣ 一句话总结
这篇论文提出了首个基于稀疏自编码器的扩散语言模型可解释性框架DLM-Scope,发现该框架不仅能有效提取可解释特征,还能在模型早期层提升性能,并支持更有效的干预,为理解这类新兴模型奠定了基础。