arXiv ID:
2603.02872
arXiv 提交日期: 2026-03-03
边看边想:面向大型视觉语言模型的流式思维链推理 / Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为‘边看边想’的新框架,让大型视觉语言模型能够像人类看视频流一样,一边接收图像帧一边实时进行推理,从而在保持高准确率的同时,大幅提升了处理视频的响应速度和效率。