🤖 系统
11-30 17:48
📄 论文总结
上下文投票:将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
1️⃣ 一句话总结
这项研究提出了一种无需训练的通用框架,通过将检索结果的内容和元数据整合到视觉语言模型的提示中,使其能够像人类一样进行推理,从而在零样本条件下显著提升跨模态视频检索的准确率。
请先 登录 后再提交论文
上下文投票:将视觉语言模型转化为零样本排序融合器 / Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
这项研究提出了一种无需训练的通用框架,通过将检索结果的内容和元数据整合到视觉语言模型的提示中,使其能够像人类一样进行推理,从而在零样本条件下显著提升跨模态视频检索的准确率。