先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
1️⃣ 一句话总结
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
请先 登录 后再提交论文
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
ARC-Chapter:将长达一小时的视频结构化为可导航章节和分层摘要 / ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
这篇论文提出了一个名为ARC-Chapter的视频结构化模型,它通过利用百万级双语长视频数据集进行训练,能够自动将长达一小时的视频(如讲座、纪录片)分割成可导航的章节并生成分层摘要,在多项指标上显著超越了现有最佳方法。
TimeSearch-R:通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
这篇论文提出了一种名为TimeSearch-R的新方法,它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧,从而更完整、准确地理解视频内容,并在多个基准测试中取得了领先性能。