arXiv ID:
2512.10791
FACTS排行榜:一个用于全面评估大语言模型事实准确性的在线基准套件 / The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
1️⃣ 一句话总结
本文介绍了FACTS Leaderboard,一个整合了四个独立子基准的综合性在线评估平台,旨在通过多维度、标准化的方式全面衡量大语言模型在各种场景下生成事实准确文本的能力。