arXiv ID:
2602.14869
arXiv 提交日期: 2026-02-16
概念影响力:利用可解释性提升训练数据归因的性能与效率 / Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution
1️⃣ 一句话总结
这篇论文提出了一种名为‘概念影响力’的新方法,它通过分析模型内部可解释的语义概念(而非单个测试样本)来追溯训练数据对模型行为的影响,从而在保持准确性的同时,大幅提升了归因分析的效率和可扩展性。