arXiv ID:
2511.04217
arXiv 提交日期: 2025-11-06
多头注意力机制的强彩票假说 / The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
1️⃣ 一句话总结
这篇论文证明了在随机初始化的多头注意力网络和Transformer中,无需训练即可找到性能优秀的子网络,从而近似实现任意目标网络的功能。