arXiv ID:
2603.17541
arXiv 提交日期: 2026-03-18
时间增益,空间代价:重新审视多模态大语言模型中的视频微调 / Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models
1️⃣ 一句话总结
这项研究发现,使用视频数据对多模态大模型进行微调虽然能提升其对动态视频的理解能力,但往往会损害或无法提升其对静态图像的识别能力,揭示了在联合训练中平衡时空理解的核心挑战。