arXiv ID:
2511.02347
arXiv 提交日期: 2025-11-04
LTD-Bench:通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw
1️⃣ 一句话总结
这篇论文提出了一个名为LTD-Bench的创新评估基准,通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷,弥补了传统数值评估方法的不足。