arXiv ID:
2512.20557
arXiv 提交日期: 2025-12-23
学习四维推理:为视觉语言模型赋予动态空间理解能力 / Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models
1️⃣ 一句话总结
这篇论文通过构建一个包含训练数据和评估基准的完整工具套件,并设计一个轻量级模块来整合几何先验知识,显著提升了视觉语言模型对三维物体在时间维度上运动和交互关系的理解与推理能力。