arXiv ID:
2601.21193
arXiv 提交日期: 2026-01-29
生成式召回与密集重排:学习多视图语义ID以实现高效的文本到视频检索 / Generative Recall, Dense Reranking: Learning Multi-View Semantic IDs for Efficient Text-to-Video Retrieval
1️⃣ 一句话总结
这篇论文提出了一种名为GRDR的两阶段文本到视频检索新方法,它通过为每个视频生成多个语义ID来快速筛选候选视频,再用密集模型进行精细排序,从而在保持高精度的同时,大幅降低了存储需求和检索时间。