arXiv ID:
2605.28079
arXiv 提交日期: 2026-05-27
ATLAS:全方位多尺度长上下文能力测试 / ATLAS: All-round Testing of Long-context Abilities across Scales
1️⃣ 一句话总结
本文提出了ATLAS基准框架,通过分层能力分类、长度相关的AUC评分和综合ATLAScore指标,系统性地评估长上下文语言模型在不同长度和任务类型下的真实性能,揭示了现有评测中常见的性能崩溃与能力迁移不足问题,并发现模型排名会随评测长度范围显著变化。