arXiv ID:
2604.01657
arXiv 提交日期: 2026-04-02
事实核查数据集究竟在测试什么?一项推理路径分析 / What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis
1️⃣ 一句话总结
这篇论文通过分析九个主流事实核查数据集发现,现有基准测试主要考察的是信息检索和简单匹配能力,而真正需要多句信息整合、数值推理等复杂推理能力的任务则严重不足,导致模型的高分并不能反映其真正的推理水平。