arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
VideoMaMa:基于生成先验的掩码引导视频抠图 / VideoMaMa: Mask-Guided Video Matting via Generative Prior
该论文提出了一个名为VideoMaMa的新方法,它利用预训练的视频扩散模型,仅需粗略的分割掩码就能生成精确的视频抠图,并在合成数据训练后能直接处理真实世界视频,同时构建了一个大规模伪标注视频抠图数据集来推动该领域研究。
Molmo2:具备视频理解与定位能力的开源视觉语言模型及其权重与数据集 / Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
这篇论文提出了一个名为Molmo2的开源视觉语言模型家族,它不仅通过一系列全新的开源数据集和创新的训练方法在视频理解任务上达到了开源模型的领先水平,还首次在开源模型中实现了对视频内容的像素级精确定位能力。
Action100M:一个大规模视频动作数据集 / Action100M: A Large-scale Video Action Dataset
这篇论文提出了一个名为Action100M的超大规模视频动作数据集,它通过自动化流程从海量网络教学视频中提取了约1亿个带开放词汇标注的动作片段,并展示了使用该数据集训练模型能显著提升其在多种动作识别任务上的性能。
V-DPM:利用动态点图进行4D视频重建 / V-DPM: 4D Video Reconstruction with Dynamic Point Maps
这篇论文提出了一种名为V-DPM的新方法,它通过将静态场景的3D重建技术扩展到视频领域,不仅能从视频中重建出动态场景的3D形状,还能精确追踪场景中每个点的完整3D运动轨迹,实现了更先进的4D(3D+时间)动态场景重建。
无需结构引导的端到端视频人物替换 / End-to-End Video Character Replacement without Structural Guidance
这篇论文提出了一种名为MoCha的新方法,它只需要一张任意帧的遮罩图,就能在复杂场景下实现高质量、时序连贯的视频人物替换,克服了以往方法依赖繁琐结构引导和配对数据的限制。
VideoLoom:一个用于联合时空理解的视频大语言模型 / VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
这篇论文提出了一个名为VideoLoom的视频大语言模型,它通过构建一个带精细标注的数据集和新评测基准,能够同时理解视频中物体在空间上的位置和动作在时间上的变化,并在多项视频理解任务中取得了领先或极具竞争力的性能。
驯服幻觉:通过反事实视频生成提升多模态大语言模型的视频理解能力 / Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
这篇论文提出了一种名为DualityForge的新方法,通过自动生成违背常识的反事实视频及其问答对来训练多模态大模型,有效减少了模型在视频理解中因过度依赖文本先验而产生的‘幻觉’错误,并在多个测试中显著提升了性能。
面向时序定位视频语言模型的因子化学习 / Factorized Learning for Temporally Grounded Video-Language Models
这篇论文提出了一个名为D²VLM的新框架,通过将视频理解中的时序定位和文本生成两个任务解耦并强调其依赖关系,并引入一种新的因子化偏好优化算法,显著提升了模型对视频中事件进行精准时间定位和可靠回答的能力。
自回归视频记忆压缩中的预训练帧保留 / Pretraining Frame Preservation in Autoregressive Video Memory Compression
这篇论文提出了一种名为PFP的神经网络方法,它通过专门的预训练目标,能够将长视频压缩成很短的上下文信息,同时保留视频中任意时刻单帧画面的细节,从而为需要长时记忆的视频生成模型提供了一个高效且保真的记忆编码方案。
请先 登录 后再提交论文