arXiv ID:
2512.21010
arXiv 提交日期: 2025-12-24
LLM瑞士轮:通过竞争性瑞士制动态聚合多基准测试性能 / LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
1️⃣ 一句话总结
这篇论文提出了一种名为‘竞争性瑞士制动态’的新评估框架,通过模拟多轮竞赛来动态评估大语言模型的综合能力与风险偏好,相比传统静态评分方法,它能提供更细致、更贴近实际竞争环境的模型排名。