arXiv ID:
2511.21692
arXiv 提交日期: 2025-11-26
重新审视跨难度级别的泛化:这并不简单 / Revisiting Generalization Across Difficulty Levels: It's Not So Easy
1️⃣ 一句话总结
这项研究发现,大型语言模型在跨越不同难度任务时的泛化能力有限,无论是用简单还是困难的数据训练,都无法在所有难度级别上取得一致性的提升,强调了训练和评估数据中难度多样性的重要性。