arXiv ID:
2604.20682
arXiv 提交日期: 2026-04-22
方差不等于重要性:不同规模Transformer模型可压缩性的结构分析 / Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales
1️⃣ 一句话总结
本文通过在GPT-2和Mistral 7B上的大量实验,揭示了Transformer模型中五个关键的结构特性,指出高方差方向并不等于预测相关方向,并证明了静态压缩存在根本性极限,而基于每个token的自适应计算才是更有效的压缩方向。