← 返回列表

菜单

🤖 系统
📄 Abstract - LTD-Bench: A Benchmark for Evaluating Spatial Reasoning in Large Language Models through Visual Output
正在获取摘要...
顶级标签: llm
详细标签: spatial reasoning visual evaluation multi-modal assessment language-vision mapping capability benchmarking 或 搜索:

📄 论文总结

LTD-Bench:通过可视化评估大语言模型空间推理能力的基准测试 / LTD-Bench: A Benchmark for Evaluating Spatial Reasoning in Large Language Models through Visual Output


1️⃣ 一句话总结

LTD-Bench是一个创新的基准测试框架,通过让大语言模型生成绘图来直观评估其空间推理能力,揭示了当前模型在语言与空间概念双向映射方面的显著缺陷。


2️⃣ 论文创新点

1. 可视化评估范式

2. 双向评估框架

3. 渐进复杂度设计

4. 多模式评估方法


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF