arXiv ID:
2603.09253
通过长度感知注意力先验与增益感知训练实现固定测试时成本下的高效推理 / Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
1️⃣ 一句话总结
这篇论文提出了一种在训练时引入长度感知注意力先验和增益感知控制器的方法,使得中小型Transformer模型在推理时无需增加任何计算开销,就能提升处理长序列和噪声数据的能力,从而在保持测试速度不变的情况下提高模型性能。