arXiv ID:
2603.14659
arXiv 提交日期: 2026-03-15
VisionCoach:通过视觉感知提示强化基于视频的推理 / VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting
1️⃣ 一句话总结
这篇论文提出了一种名为VisionCoach的新方法,通过在训练时自适应地使用视觉提示来引导模型关注视频中与问题相关的关键信息,从而显著提升了模型在视频推理任务中定位和追踪目标的能力,并且最终模型在推理时无需额外提示即可高效运行。