arXiv ID:
2606.22870
VideoLatent:通过潜在自强制学习视频语言 / VideoLatent: Video-Language Learning via Latent Self-Forcing
1️⃣ 一句话总结
为了高效且低成本地提升多模态大模型对视频的理解与推理能力,本文提出了一种名为VideoLatent的新方法,它让模型在内部自动进行“潜在推理”,仅需视频、问题和答案这类简单数据即可训练,不仅性能全面超越现有模型,还将训练和推理的计算开销分别降低至原来的六分之一和六十八分之一。