arXiv ID:
2606.09248
时序感知推理优化用于视频时序定位 / Temporal-Aware Reasoning Optimization for Video Temporal Grounding
1️⃣ 一句话总结
该论文提出了一种名为TaRO的框架,通过构建基于视觉线索和时间戳的高质量推理路径,并设计一种能评估推理过程是否真正关注时间事件的奖励机制,显著提升了多模态大模型在视频中精准定位特定事件片段的能力。