arXiv ID:
2511.04668
arXiv 提交日期: 2025-11-06
SIMS-V:面向空间视频理解的模拟指令调优 / SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
1️⃣ 一句话总结
该论文提出了一种利用3D模拟器生成空间丰富视频数据的方法,仅需少量模拟示例就能有效训练视频语言模型,使其在现实世界空间推理任务中超越更大模型并媲美商业模型。