arXiv ID:
2604.14140
arXiv 提交日期: 2026-04-15
LongCoT:长链条思维推理基准测试 / LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为LongCoT的新基准测试,专门用来衡量AI模型在解决需要多步骤、长链条推理的复杂问题时的能力,结果显示当前最先进的模型在这方面的表现仍然很差。