arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2508.05630

🤖 系统

08-27 14:38

systems

video object segmentation benchmark dataset occlusion handling multi-task evaluation complex scenes

📄 论文总结

《MOSEv2: A Challenging Benchmark for Complex Video Object Segmentation》
《MOSEv2：面向复杂视频目标分割的挑战性基准》

1️⃣ 一句话总结

这篇论文提出了MOSEv2——一个面向复杂真实场景的视频目标分割（VOS）基准数据集，通过引入恶劣天气、遮挡、目标消失/重现等挑战性场景，以及扩展数据规模（5,024个视频、200类物体），显著提升了现有VOS方法的评估难度，揭示了当前技术在真实场景中的局限性，并为未来研究提供了方向性指导。

2️⃣ 论文创新点

1. 复杂场景优先的数据集设计

创新点：MOSEv2通过10项严格规则（如多目标交互、长期遮挡、动态运动）构建复杂场景，新增恶劣天气、伪装物体等现实挑战，覆盖200个类别（包括非物理目标如阴影）。
改进：相比DAVIS、YouTube-VOS等传统数据集，MOSEv2的消失-重现率（61.8%）、拥挤度（13.6 distractors）等指标显著更高，更贴近真实世界复杂性。
意义：填补了现有基准与真实场景的差距，推动算法在遮挡、长时序关联等核心问题上的研究。

2. 多模态评估与专用指标

创新点：提出MLLMOR（多模态大语言模型辅助遮挡率）和AOR（Amodal掩码遮挡率），结合传统BOR指标，形成更全面的遮挡评估体系；设计自适应边界阈值ℱ̇解决小目标评估偏差。
改进：传统指标（如𝒥、ℱ）在复杂场景下失效，新指标通过动态阈值（如𝑤̇ = min(0.008×𝐷, 0.1×√𝐴)）提升评估鲁棒性。
意义：为复杂场景下的算法性能提供细粒度量化标准，尤其针对遮挡和小目标等难点。

3. 跨任务与多场景适用性

创新点：首次在VOS数据集中集成知识依赖任务（如OCR、物理因果推理），并支持视频目标跟踪（VOT）、无监督VOS等多任务评估。
改进：通过统一标注协议（如掩码转边界框）实现VOS/VOT任务兼容，而传统数据集（如DAVIS）仅限单一任务。
意义：验证了复杂场景挑战的普适性，促进多任务联合优化研究。

4. 高效标注与规模领先

创新点：开发交互式标注工具集成SAM2辅助生成高质量掩码，通过多级审核确保标注精度，最终构建701,976个掩码（50.2%为小目标）。
改进：标注效率比人工标注提升3倍，且规模超越DAVIS（5,024 vs. 150视频）、YouTube-VOS（701K vs. 133K掩码）。
意义：为社区提供高质量、大规模基准，降低数据获取门槛。

3️⃣ 主要结果与价值

实验结果亮点

性能对比：现有SOTA方法在MOSEv2上性能骤降（如SAM2从MOSEv1的76.4%降至50.9%），传统方法（XMem、STCN）在重现场景（𝑟/ℱ̇𝑟 <30%）表现尤其差。
SAM2系列优势：基于SAM2的变体（如SAM2Long-L）在零样本设定下仍优于微调传统方法（51.5% 𝒥&ℱ），但计算成本高（7.1 FPS）。
VOT任务挑战：SAMURAI（集成卡尔曼滤波）在MOSEv2上AUC仅52.1%，远低于LaSOT（68.3%），凸显复杂场景难度。

实际应用价值

推动鲁棒算法设计：MOSEv2的复杂场景（如多镜头切换、恶劣天气）倒逼模型增强时序建模、遮挡感知等能力，对自动驾驶、监控等现实应用至关重要。
跨领域基准价值：支持VOS/VOT/VIS等多任务评估，促进通用视频理解框架（如OMG-Seg）发展。
开源与可扩展性：数据集与工具链开源，支持社区持续扩展（如新增语言标注）。

4️⃣ 术语表

MOSEv2：复杂视频目标分割数据集，覆盖200类物体及多样化挑战场景（遮挡、恶劣天气等）。
VOS（Video Object Segmentation）：视频目标分割，包括半监督、无监督和交互式变体。
VOT（Video Object Tracking）：视频目标跟踪，常与VOS联合评估。
SAM2：Segment Anything Model的扩展版本，支持零样本视频分割与交互式标注。
MLLMOR：多模态大语言模型辅助遮挡率，利用QWenVL-2.5-32B评估遮挡严重性。
ℱ̇：改进的轮廓准确度指标，通过自适应阈值解决小目标评估偏差。
AOR（Amodal-mask Occlusion Rate）：基于Amodal分割的遮挡率指标。
知识依赖任务：需高级推理的VOS场景（如物理因果推断、OCR）。

（总结注：忽略冗余的模型名如DAM4SAM等，聚焦核心贡献；合并重复术语如MOSEv2/VOS；用标题分级替代多级列表提升可读性。）

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2508.05630

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 复杂场景优先的数据集设计

2. 多模态评估与专用指标

3. 跨任务与多场景适用性

4. 高效标注与规模领先

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2508.05630 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 复杂场景优先的数据集设计

2. 多模态评估与专用指标

3. 跨任务与多场景适用性

4. 高效标注与规模领先

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2508.05630