arXiv ID:
2604.18313
arXiv 提交日期: 2026-04-20
去噪与对齐:基于扩散模型的前景知识提示用于开放词汇时序动作检测 / Denoise and Align: Diffusion-Driven Foreground Knowledge Prompting for Open-Vocabulary Temporal Action Detection
1️⃣ 一句话总结
这篇论文提出了一个名为DFAlign的新方法,它利用扩散模型从视频中‘去噪’生成前景知识,以此作为桥梁来更好地匹配视频内容和抽象的动作标签,从而在开放词汇场景下更准确地检测出视频中未曾见过的动作片段。