arXiv ID:
2605.17704
arXiv 提交日期: 2026-05-18
玩具组合可解释性模型揭示早期特征空间中的中奖彩票 / Toy Combinatorial Interpretability Models Reveal Lottery Tickets in Early Feature Space
1️⃣ 一句话总结
该研究通过一个简化的玩具模型,揭示了神经网络中的“中奖彩票”(稀疏子网络)实际上对应的是初始化时就已经接近最终特征编码的“前驱位置”,其本质是特征空间中的几何结构(而非权重空间中的特定子网络),并通过特征距离等轻量级探针验证了这一发现。