arXiv ID:
2605.21917
arXiv 提交日期: 2026-05-21
MAVEN:一种面向视频推理任务的多阶段智能体标注流水线 / MAVEN: A Multi-stage Agentic Annotation Pipeline for Video Reasoning Tasks
1️⃣ 一句话总结
本文提出了一种名为MAVEN的自动化流水线,它像一位智能导演一样,将原始视频自动分解为包含时间、地点、原因和后果的详细事件描述,并基于此生成高质量的训练数据,从而使小模型仅用交通视频训练就能在多个复杂视频推理任务上超越GPT级别的大模型。