arXiv ID:
2511.04570
arXiv 提交日期: 2025-11-06
用视频思考:视频生成作为一种有前景的多模态推理范式 / Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
1️⃣ 一句话总结
这篇论文提出了一种名为‘用视频思考’的新方法,利用视频生成模型(如Sora-2)将视觉和文本推理统一起来,克服了传统图像和文本分离的局限性,并在多项任务中展现出强大的理解和生成能力。