arXiv ID:
2601.17399
arXiv 提交日期: 2026-01-24
ReLE:一个用于诊断中文大语言模型能力各向异性的可扩展系统与结构化基准 / ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为ReLE的可扩展评估系统,它通过创新的评分和调度方法,高效诊断了数百个中文大语言模型在不同领域和任务上表现不均的‘能力各向异性’问题,揭示了当前模型更偏向专业化而非全面领先。