arXiv ID:
2604.14630
arXiv 提交日期: 2026-04-16
CMTM:用于无监督视频目标分割的跨模态令牌调制 / CMTM: Cross-Modal Token Modulation for Unsupervised Video Object Segmentation
1️⃣ 一句话总结
这篇论文提出了一种名为跨模态令牌调制的新方法,通过加强视频中外观和运动两种信息之间的交互,并引入令牌掩码策略来提升学习效率,从而在无监督视频目标分割任务上取得了当前最好的性能。