arXiv ID:
2605.20818
arXiv 提交日期: 2026-05-20
OSGNet结合多模态大语言模型重排序:Ego4D情景记忆挑战2026解决方案 / OSGNet with MLLM Reranking @ Ego4D Episodic Memory Challenge 2026
1️⃣ 一句话总结
本文提出了一种结合传统定位模型OSGNet和多模态大语言模型(MLLM)的两阶段框架,先快速生成候选视频片段,再让MLLM从中选出最匹配自然语言查询的目标片段,从而在无需大量计算的前提下显著提升第一人称长视频中事件定位的准确性,并在两项国际竞赛中夺得第一。