arXiv ID:
2512.12620
arXiv 提交日期: 2025-12-14
评估大型语言模型的三段论推理能力:双基准框架与信念偏差的系统性研究 / Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives
1️⃣ 一句话总结
本研究通过提出一个同时评估逻辑形式有效性和自然语言结论可信度的双基准框架,系统性地评估了14个大型语言模型的三段论推理能力,发现多数模型存在显著的信念偏差,且其形式逻辑能力优于自然语言理解能力,这与人类推理模式相反。