arXiv ID:
2603.02919
arXiv 提交日期: 2026-03-03
可解释的运动注意力图:在视频扩散Transformer中定位时空概念 / Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
1️⃣ 一句话总结
这篇论文提出了一种无需梯度计算的新方法,能够自动生成视频中物体运动和静态概念的时空定位图,从而清晰地解释视频生成模型如何将文字描述转化为具体的动态画面。