arXiv ID:
2603.12133
arXiv 提交日期: 2026-03-12
TopoBench:针对大语言模型在复杂拓扑推理任务上的基准测试 / TopoBench: Benchmarking LLMs on Hard Topological Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为TopoBench的基准测试,用于评估大语言模型在解决涉及连通性、环路闭合等复杂空间关系的拓扑谜题时的能力,研究发现当前最先进的模型在难题上表现不佳,其核心瓶颈主要在于从空间表示中提取约束条件,而非对这些约束进行推理。