arXiv ID:
2602.01518
arXiv 提交日期: 2026-02-02
Qrita:一种基于枢轴截断与选择的高性能GPU Top-k和Top-p算法 / Qrita: High-performance Top-k and Top-p Algorithm for GPUs using Pivot-based Truncation and Selection
1️⃣ 一句话总结
这篇论文提出了一种名为Qrita的新算法,它通过创新的枢轴搜索和截断技术,在大语言模型生成文本时,能比现有方法快两倍、省一半内存,高效且确定性地完成关键的Top-k和Top-p筛选步骤。