arXiv ID:
2606.13332
arXiv 提交日期: 2026-06-11
OR-Action:带细粒度动作的多角色手术室视频理解 / OR-Action: Multi-Role Video Understanding with Fine-Grained Actions
1️⃣ 一句话总结
本文提出了一种针对手术室视频的细粒度多角色动作识别方法,通过构建首个以动作为中心的基准数据集和一种仅依赖视觉的时序模型,显著提升了在复杂遮挡和有限视角下的动作理解能力,并引入多视角到单视角的特征对齐技术,减少了对多摄像头数据的依赖。