arXiv ID:
2601.18157
arXiv 提交日期: 2026-01-26
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。