🤖 系统
11-30 17:46
📄 论文总结
RiddleBench:面向大语言模型的新型生成式推理基准 / RiddleBench: A New Generative Reasoning Benchmark for LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为RiddleBench的新型推理基准,包含1737个英语谜题,旨在评估大语言模型在逻辑、空间和约束整合等核心推理能力上的表现,结果发现即使顶尖模型也存在严重缺陷,如幻觉传播和自我修正能力差。