arXiv ID:
2511.01617
arXiv 提交日期: 2025-11-03
上下文投票:将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
1️⃣ 一句话总结
这项研究提出了一种无需训练的通用框架,通过将检索结果的内容和元数据整合到视觉语言模型的提示中,使其能够像人类一样进行推理,从而在零样本条件下显著提升跨模态视频检索的准确率。