arXiv ID:
2603.28708
基于GPU加速的Transformer神经网络实时推理优化 / GPU-Accelerated Optimization of Transformer-Based Neural Networks for Real-Time Inference
1️⃣ 一句话总结
这篇论文提出了一种使用混合精度优化的GPU加速方法,在保持模型高精度的同时,显著提升了Transformer模型(如BERT和GPT-2)的推理速度,使其能够满足实时应用的需求。