arXiv ID:
2512.24097
arXiv 提交日期: 2025-12-30
面向时序定位视频语言模型的因子化学习 / Factorized Learning for Temporally Grounded Video-Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为D²VLM的新框架,通过将视频理解中的时序定位和文本生成两个任务解耦并强调其依赖关系,并引入一种新的因子化偏好优化算法,显著提升了模型对视频中事件进行精准时间定位和可靠回答的能力。