arXiv ID:
2512.21334
arXiv 提交日期: 2025-12-24
流式视频指令微调 / Streaming Video Instruction Tuning
1️⃣ 一句话总结
这篇论文提出了一个名为Streamo的实时流式视频大语言模型,它通过构建一个大规模指令数据集进行训练,能够像通用助手一样实时处理视频流中的多种任务,例如实时解说、动作理解和时间敏感问答,从而弥合了传统离线视频分析与实时智能交互之间的差距。