arXiv ID:
2511.01618
arXiv 提交日期: 2025-11-03
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
1️⃣ 一句话总结
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。