arXiv ID:
2510.17896
arXiv 提交日期: 2025-10-19
长上下文注意力基准:从内核效率到分布式上下文并行 / Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism
1️⃣ 一句话总结
这篇论文提出了一个统一的评估基准,系统比较了提升长文本训练效率的两种主流方法——优化注意力计算内核和分布式并行策略,为实际应用提供了性能权衡与设计指导。