🤖 系统
11-30 17:56
📄 论文总结
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
1️⃣ 一句话总结
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。