arXiv ID:
2604.20473
arXiv 提交日期: 2026-04-22
视频线索推理树:一种增强视频理解的树状推理框架 / Video-ToC: Video Tree-of-Cue Reasoning
1️⃣ 一句话总结
为了克服现有视频大模型在复杂视频理解中推理能力弱且容易产生幻觉的问题,本文提出了Video-ToC框架,它通过树状结构的视觉线索定位、动态调整奖励的强化学习以及自动构建训练数据集,使模型能够根据视频内容进行更精细、更可靠的推理。