arXiv ID:
2601.10611
arXiv 提交日期: 2026-01-15
Molmo2:具备视频理解与定位能力的开源视觉语言模型及其权重与数据集 / Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
1️⃣ 一句话总结
这篇论文提出了一个名为Molmo2的开源视觉语言模型家族,它不仅通过一系列全新的开源数据集和创新的训练方法在视频理解任务上达到了开源模型的领先水平,还首次在开源模型中实现了对视频内容的像素级精确定位能力。