arXiv ID:
2604.12346
arXiv 提交日期: 2026-04-14
解锁Grounding DINO在视频中的潜力:面向有限数据的时空定位的参数高效适应方法 / Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
1️⃣ 一句话总结
这篇论文提出了一种名为ST-GD的数据高效框架,它通过冻结预训练好的2D视觉语言模型并仅添加少量可训练参数,成功地将模型适应到视频时空定位任务中,从而在数据稀缺的情况下也能取得优异的性能。