arXiv ID:
2603.05167
arXiv 提交日期: 2026-03-05
C2-Faith:评估大语言模型作为思维链推理中因果与覆盖忠实性的评判者 / C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为C2-Faith的新基准,用于测试大语言模型能否有效评估思维链推理的忠实性(包括逻辑因果和步骤完整性),结果发现现有模型在不同任务上表现不一,且难以精确定位错误,为如何选用合适的AI评判者提供了实用指导。