arXiv ID:
2604.23935
arXiv 提交日期: 2026-04-27
第五届PVUW MeViS-Audio赛道第二名:ASR-SaSaSa2VA / 2nd of the 5th PVUW MeViS-Audio Track: ASR-SaSaSa2VA
1️⃣ 一句话总结
提出一种资源高效的音频引导视频物体分割方法,通过将音频转为文本描述并利用现存文本分割模型,同时加入音频异常检测模块来过滤无关指令,从而在节省算力和数据的同时获得优秀性能。