arXiv最新AI论文速览速学

🔍

标签: #long video understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Q-Fold: Query-Aware Focus-Context Spatio-Temporal Folding for Long Video Understanding 06-11

arXiv ID: 2606.12125

arXiv 提交日期: 2026-06-10

multi-modal video model evaluation long video understanding multimodal large language models input construction focus-context temporal segments

Q-Fold：面向长视频理解的查询感知式焦点-上下文时空折叠方法 / Q-Fold: Query-Aware Focus-Context Spatio-Temporal Folding for Long Video Understanding

1️⃣ 一句话总结

本文提出了一种无需额外训练的输入构建框架Q-Fold，通过根据用户查询将长视频中相关片段保留为高保真帧、不相关片段折叠成保持时间顺序的紧凑布局，从而在有限计算资源下同时保留关键视觉证据和广泛时间覆盖，显著提升了多模态大模型在长视频理解任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29252

arXiv 提交日期: 2026-03-31

multi-modal model evaluation systems long video understanding visual memory kv cache training-free streaming video

通过视觉记忆机制扩展多模态大语言模型的长视频理解能力 / Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

1️⃣ 一句话总结

这篇论文提出了一种名为FlexMem的无训练新方法，通过模拟人类观看视频时不断回忆相关片段的视觉记忆机制，使多模态大语言模型能够理解超长甚至无限长度的视频内容，并在单张消费级显卡上高效处理超过1000帧的视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20618

arXiv 提交日期: 2025-12-23

multi-modal agents model evaluation long video understanding multi-agent reasoning reinforcement learning video question answering temporal grounding

LongVideoAgent：基于多智能体推理的长视频理解框架 / LongVideoAgent: Multi-Agent Reasoning with Long Videos

1️⃣ 一句话总结

这篇论文提出了一个多智能体框架，通过一个主智能体协调两个子智能体来精准定位视频片段并提取视觉细节，从而有效解决了长视频问答中信息丢失和时序定位不准的难题，在多个数据集上显著超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05774

arXiv 提交日期: 2025-12-05

agents video model evaluation active perception long video understanding multimodal llm evidence seeking agentic reasoning

主动视频感知：面向智能体长视频理解的迭代式证据搜寻 / Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为‘主动视频感知’的新框架，它让AI像侦探一样，在观看长视频时能主动、有选择地寻找与问题相关的关键视觉证据，从而用更少的计算量实现更准确的长视频理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20478

arXiv 提交日期: 2025-08-28

video multi-modal model training long video understanding reinforcement learning multi-turn reasoning video segment selection bi-level reward

Video-MTR：面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

1️⃣ 一句话总结

本文提出了一种强化多轮推理框架Video-MTR，通过迭代选择关键视频片段并结合问题理解，实现了对长视频内容更精准的分析，无需依赖外部视觉语言模型即可端到端训练，在多个基准测试中取得了更高的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12125

1️⃣ 一句话总结

arXiv ID: 2603.29252

1️⃣ 一句话总结

arXiv ID: 2512.20618

1️⃣ 一句话总结

arXiv ID: 2512.05774

1️⃣ 一句话总结

arXiv ID: 2508.20478

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29252 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05774 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20478 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12125

arXiv ID: 2603.29252

arXiv ID: 2512.20618

arXiv ID: 2512.05774

arXiv ID: 2508.20478