arXiv ID:
2512.20618
arXiv 提交日期: 2025-12-23
LongVideoAgent:基于多智能体推理的长视频理解框架 / LongVideoAgent: Multi-Agent Reasoning with Long Videos
1️⃣ 一句话总结
这篇论文提出了一个多智能体框架,通过一个主智能体协调两个子智能体来精准定位视频片段并提取视觉细节,从而有效解决了长视频问答中信息丢失和时序定位不准的难题,在多个数据集上显著超越了现有方法。