arXiv ID:
2606.22325
arXiv 提交日期: 2026-06-21
所有路径都通向崩溃 / All Routes Lead to Collapse
1️⃣ 一句话总结
这篇论文发现,注意力崩溃、表示退化等问题并非Transformer模型独有,而是所有基于固定相似度进行内容路由的机制都会出现的普遍现象,并揭示了其根本原因在于路由度量与表示空间的不匹配。