arXiv ID:
2605.03999
arXiv 提交日期: 2026-05-05
RD-ViT:用于语义分割的循环深度视觉Transformer,降低数据依赖性 / RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction
1️⃣ 一句话总结
该论文提出了一种名为RD-ViT的视觉Transformer模型,通过用一个可以循环使用的共享模块替代传统多个独立模块,并引入状态注入、自适应计算时间和专家混合等技术,使得模型在训练数据较少时也能达到甚至超越标准ViT的分割精度,同时参数量更少、计算效率更高。