arXiv ID:
2603.12254
先注视再关注:通过自回归凝视实现高效且可扩展的视频理解 / Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
1️⃣ 一句话总结
这篇论文提出了一个名为AutoGaze的轻量级模块,它通过自回归学习的方式,智能地筛选出视频中最关键的画面片段,从而让大模型在处理长、高清视频时能大幅减少计算量、提升速度,同时保持甚至超越原有的理解能力。