🤖 系统
11-06 15:10
📄 论文总结
基于上下文投票的视觉语言模型融合框架 / Vote-in-Context Framework for Visual-Language Model Fusion
1️⃣ 一句话总结
本文提出了一种无需训练的通用框架ViC,通过将异构检索器的结果融合和列表重排序重新定义为视觉语言模型的零样本推理任务,在跨模态视频检索中实现了最先进的性能。
2️⃣ 论文创新点
1. Vote-in-Context (ViC)框架
- 创新点:无需训练的通用框架,利用冻结的视觉语言模型作为列表级重排序器和融合器
- 区别/改进:通过序列化内容证据和检索器元数据到提示中,替代传统的固定公式融合方法
- 意义:在零样本设置下显著提升检索性能,在MSR-VTT和VATEX等基准上取得高达+40 Recall@1的提升
2. S-Grid视频表示
- 创新点:紧凑的视频内容序列化映射,将视频表示为图像网格,可选配字幕
- 区别/改进:避免昂贵的序列处理,使VLM能够基于视频内容进行推理
- 意义:为跨模态视频检索提供了高效的内容表示方法
3. 多模态证据利用
- 创新点:同时整合内容证据和检索器元数据,实现自适应权重分配
- 区别/改进:相比传统融合方法仅依赖排序或分数信号,ViC提供更灵活的每查询自适应融合
- 意义:展示了VLM在融合多检索器结果方面的优势,提供更有效的跨列表融合能力
3️⃣ 主要结果与价值
结果亮点
- 在MSR-VTT(t2v)上R@1达87.1,比最佳基线(CombMNZ)高出+1.8点
- 在DiDeMo(t2v)上R@1达87.4,比次优基线(CombSUM)高出+7.0点
- 将SOTA平均R@1从57%提升到90%,确立了新的帕累托前沿
实际价值
- 支持文本到视频和视频到文本的双向跨模态检索
- 单一VLM能够处理来自任何上游模型的检索结果,简化视频检索流程
- 为资源受限场景下的模型规模选择提供指导,8B是零样本列表重排序的最小有效规模
4️⃣ 术语表
- Vote-in-Context (ViC):无需训练的通用框架,将异构检索器的结果融合和列表重排序重新定义为视觉语言模型的零样本推理任务
- S-Grid:紧凑的视频内容序列化映射,将视频表示为均匀采样帧的单图像网格,可选配字幕,支持列表级推理
- Recall@1:检索评估指标,表示排名第一的结果正确的查询比例
- RRF:互逆排序融合,基于排名列表的融合方法,为每个项目分配融合分数