arXiv ID:
2512.14698
arXiv 提交日期: 2025-12-16
TimeLens:基于多模态大语言模型重新思考视频时间定位 / TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
1️⃣ 一句话总结
这篇论文通过构建高质量的数据集和探索有效的算法设计,系统性地提升了多模态大语言模型在视频时间定位任务上的能力,并取得了超越现有开源模型甚至部分闭源模型的性能。