arXiv ID:
2512.13330
arXiv 提交日期: 2025-12-15
FIN-bench-v2:一个用于评估芬兰语大语言模型的统一且鲁棒的基准测试套件 / FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为FIN-bench-v2的综合性基准测试套件,它通过整合多种芬兰语评测任务并引入严格的鲁棒性筛选标准,为客观、可靠地评估芬兰语大语言模型的性能提供了一个统一且高质量的公共平台。