arXiv ID:
2606.24726
arXiv 提交日期: 2026-06-23
SER:利用语义证据奖励学习视频推理的时空定位 / SER: Learning to Ground Video Reasoning with Semantic Evidence Rewards
1️⃣ 一句话总结
本文提出了一种名为语义证据奖励(SER)的新方法,通过让视觉语言模型像“裁判”一样检查视频推理中生成的关键证据是否符合语义相关性、定位准确性和时间合理性,从而提升模型在复杂视频中定位关键物体和时刻的能力,避免了传统仅依赖边界框重合度的评价方式带来的问题。