arXiv ID:
2512.03405
arXiv 提交日期: 2025-12-03
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
1️⃣ 一句话总结
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。