📄 论文总结
LTD-Bench:通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw
1️⃣ 一句话总结
这篇论文提出了一个名为LTD-Bench的创新评估基准,通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷,弥补了传统数值评估方法的不足。
请先 登录 后再提交论文
LTD-Bench:通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw
这篇论文提出了一个名为LTD-Bench的创新评估基准,通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷,弥补了传统数值评估方法的不足。
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
阿里阿德涅:一个用于探索和扩展视觉语言模型推理边界的可控框架 / Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
这篇论文提出了一个名为Ariadne的可控框架,通过使用合成迷宫进行强化学习训练,成功扩展了视觉语言模型在视觉主导的空间推理任务上的能力边界,并显著提升了模型在真实世界导航任务中的零样本泛化性能。
组合式机器的能动设计 / Agentic Design of Compositional Machines
这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器,并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。
视觉语言模型的可解释物理推理与性能分类 / Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
这篇论文提出了一个评估视觉语言模型对二维物理原理理解能力的新框架,发现模型规模与推理能力正相关,但在需要抽象空间推理的领域表现较差。