arXiv ID:
2601.21996
arXiv 提交日期: 2026-01-29
机制化数据归因:追踪可解释大语言模型单元的训练起源 / Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
1️⃣ 一句话总结
这篇论文提出了一个名为MDA的新方法,能够像‘基因溯源’一样,精准找出训练数据中哪些具体样本催生了模型内部的可解释功能单元(如‘归纳头’),并通过实验证实了这些单元与模型上下文学习能力之间的因果联系,最终还利用这一发现开发了一种能有效引导模型发展的数据增强技术。