arXiv ID:
2603.08317
arXiv 提交日期: 2026-03-09
在空间与时空操作下人机在以自我为中心动作识别中的差异 / Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations
1️⃣ 一句话总结
这项研究发现,在识别视频中的动作时,人类主要依赖关键的手-物交互等语义线索,而AI模型则更依赖上下文和中低层视觉特征,导致在图像被裁剪或时间顺序被打乱时,两者的识别表现和策略存在显著差异。