arXiv ID:
2601.15549
VIOLA:通过最少标注实现视频上下文学习 / VIOLA: Towards Video In-Context Learning with Minimal Annotations
1️⃣ 一句话总结
这篇论文提出了一个名为VIOLA的高效框架,它通过结合少量专家标注和大量未标注视频数据,让多模态大语言模型能够在标注成本极低的情况下,快速且鲁棒地适应新的视频任务领域。