arXiv ID:
2606.12106
多模态足球理解专家 / MSUE: Multi-Modal Soccer Understanding Expert
1️⃣ 一句话总结
本文提出了一种名为MSUE的多专家问答系统,通过低成本合成多样化的足球比赛问答数据,并让大语言模型动态调配文本、图像和视频专家协同工作,最终在SoccerNet VQA挑战中取得了95%的准确率和第三名的成绩。