arXiv ID:
2605.20708
arXiv 提交日期: 2026-05-20
重新思考扩散Transformer中的跨层信息路由 / Rethinking Cross-Layer Information Routing in Diffusion Transformers
1️⃣ 一句话总结
本文系统分析了扩散Transformer模型中信息跨层流动的问题,发现传统残差连接会导致梯度衰减、信息冗余等三大症状,并提出了一种自适应路由机制(DAR),能在训练中动态调整每层信息的累积方式,大幅提升生成质量和训练效率。