arXiv ID:
2605.26641
arXiv 提交日期: 2026-05-26
全能检索器:通过融合即教师蒸馏实现任意音频-视频-文本检索 / OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation
1️⃣ 一句话总结
这篇论文提出了一种名为全能检索器(OmniRetriever)的新方法,通过一种‘融合即教师’的蒸馏技术,让模型能够同时理解音频、视频和文本三种信息,并实现三者之间任意组合的相互检索,在多个测试基准上取得了显著优于现有方案的结果。