arXiv ID:
2604.20760
arXiv 提交日期: 2026-04-22
探索高阶自相似性以理解视频 / Exploring High-Order Self-Similarity for Video Understanding
1️⃣ 一句话总结
本文提出了一种轻量级的神经网络模块MOSS,能够从视频中提取并整合不同层次的时空自相似性特征,从而以极低的计算成本显著提升动作识别、视频问答和机器人任务等多种视频理解任务的性能。