arXiv ID:
2602.11730
arXiv 提交日期: 2026-02-12
STVG-R1:通过强化学习激励视频中的实例级推理与定位 / STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为STVG-R1的新方法,它通过给视频中的每个物体分配一个独特的、贯穿视频始终的“身份证”,并利用强化学习来训练模型,从而让AI更准确、更高效地在视频中定位和追踪被描述的物体,大幅提升了现有技术的性能。