← 返回列表

菜单

🤖 系统
📄 Abstract - Vote-in-Context Framework for Visual-Language Model Fusion
正在获取摘要...
详细标签: cross-modal retrieval video retrieval model fusion zero-shot reasoning list reranking 或 搜索:

📄 论文总结

基于上下文投票的视觉语言模型融合框架 / Vote-in-Context Framework for Visual-Language Model Fusion


1️⃣ 一句话总结

本文提出了一种无需训练的通用框架ViC,通过将异构检索器的结果融合和列表重排序重新定义为视觉语言模型的零样本推理任务,在跨模态视频检索中实现了最先进的性能。


2️⃣ 论文创新点

1. Vote-in-Context (ViC)框架

2. S-Grid视频表示

3. 多模态证据利用


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF