arXiv ID:
2601.02669
arXiv 提交日期: 2026-01-06
迈向大型语言模型在事实核查中的全面分阶段基准测试 / Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
1️⃣ 一句话总结
这篇论文提出了一个名为FactArena的全自动评估框架,通过模拟完整的事实核查流程(包括声明提取、证据检索和最终判断)来全面测试大型语言模型的真实能力,发现仅测试最终验证环节会掩盖模型的系统性缺陷,从而为开发更可靠的事实核查AI提供了新的评估范式。