arXiv最新AI论文速览速学

🔍

标签: #long-form video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Small Vision-Language Models are Smart Compressors for Long Video Understanding 04-13

arXiv ID: 2604.08120

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation video understanding vision-language models context compression efficient inference long-form video

小型视觉语言模型：长视频理解的智能压缩器 / Small Vision-Language Models are Smart Compressors for Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Tempo的高效框架，它利用小型视觉语言模型作为智能压缩器，能够根据用户查询意图，动态且精准地压缩长达数小时的视频内容，在极低的计算成本下实现超越大型模型的长视频理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16978

arXiv 提交日期: 2025-12-18

benchmark multi-modal agents video understanding multimodal reasoning agentic tool use evaluation framework long-form video

长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

1️⃣ 一句话总结

这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统，用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力，揭示了当前先进模型在此任务上的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13313

arXiv 提交日期: 2025-12-15

video generation multi-modal aigc avatar video generation long-form video spatio-temporal cascade multimodal alignment identity preservation

KlingAvatar 2.0 技术报告 / KlingAvatar 2.0 Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为KlingAvatar 2.0的新框架，它通过一个时空级联结构和一套智能导演模块，高效地生成了长时长、高分辨率、身份一致且能精准遵循多模态指令的虚拟人视频，解决了现有方法在长视频生成中常见的质量下降、时间漂移和指令跟随弱的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04000

arXiv 提交日期: 2025-12-03

multi-modal model evaluation computer vision video understanding frame selection query typology large multimodal models long-form video

先区分，再定位：根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为DIG的智能方法，它先判断用户对长视频的提问是全局性的还是局部性的，然后自动选择最高效的视频帧提取策略，从而在保证理解准确性的同时，大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20785

arXiv 提交日期: 2025-11-25

multi-modal agents model training video reasoning tool calling long-form video agentic framework multimodal chain-of-thought

LongVT：通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

1️⃣ 一句话总结

这篇论文提出了一个名为LongVT的智能框架，它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程，通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案，有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题，并在多个评测中表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.14349

arXiv 提交日期: 2025-11-18

video multi-modal natural language processing video chaptering long-form video hierarchical summarization video structure dense video captioning

ARC-Chapter：将长达一小时的视频结构化为可导航章节和分层摘要 / ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

1️⃣ 一句话总结

这篇论文提出了一个名为ARC-Chapter的视频结构化模型，它通过利用百万级双语长视频数据集进行训练，能够自动将长达一小时的视频（如讲座、纪录片）分割成可导航的章节并生成分层摘要，在多项指标上显著超越了现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.05489

arXiv 提交日期: 2025-11-07

video reinforcement learning model training temporal search long-form video self-verification video reasoning benchmark evaluation

TimeSearch-R：通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为TimeSearch-R的新方法，它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧，从而更完整、准确地理解视频内容，并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.08120

1️⃣ 一句话总结

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2512.16978

1️⃣ 一句话总结

arXiv ID: 2512.13313

1️⃣ 一句话总结

arXiv ID: 2512.04000

1️⃣ 一句话总结

arXiv ID: 2511.20785

1️⃣ 一句话总结

arXiv ID: 2511.14349

1️⃣ 一句话总结

arXiv ID: 2511.05489

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.08120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13313 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04000 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20785 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.14349 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.05489 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.08120

arXiv ID: 2602.22932

arXiv ID: 2512.16978

arXiv ID: 2512.13313

arXiv ID: 2512.04000

arXiv ID: 2511.20785

arXiv ID: 2511.14349

arXiv ID: 2511.05489