arXiv ID:
2602.20159
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
1️⃣ 一句话总结
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
ReMoRa:基于精细化运动表征的多模态大语言模型,用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
这篇论文提出了一种名为ReMoRa的新模型,它通过直接处理视频压缩后的运动表征而非大量原始图像帧,高效地解决了多模态大模型理解长视频时计算量过大的难题,并在多个长视频理解测试中取得了领先效果。
利用多任务全参考信号学习感知表征用于游戏视频无参考质量评估 / Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals
这篇论文提出了一种名为MTL-VQA的多任务学习框架,它巧妙地利用无需人工标注的全参考视频质量指标作为训练信号,来学习感知特征,从而有效解决了游戏视频因数据稀缺和内容独特而导致的无参考质量评估难题。
一种有效的时空分解范式下的低光视频增强 / Low-Light Video Enhancement with An Effective Spatial-Temporal Decomposition Paradigm
这篇论文提出了一种名为VLLVE++的新方法,通过将视频内容智能分解为不同部分并分别处理,有效提升了昏暗、有噪点视频的画质,尤其在处理真实世界动态场景时表现优异。
D^2-VR:基于协同优化策略的、抗退化且经过蒸馏的视频修复方法 / D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy
这篇论文提出了一种名为D^2-VR的新方法,它通过设计抗退化的运动对齐模块和采用对抗性蒸馏技术,在保证视频修复高质量的同时,将处理速度大幅提升了12倍,有效解决了现有方法速度慢且面对复杂画面退化时效果不稳定的问题。
FlashVID:一种基于无训练树状时空令牌合并的高效视频大语言模型 / FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging
这篇论文提出了一种名为FlashVID的无训练加速框架,它通过智能合并视频中相似或冗余的视觉信息块,让视频大模型在仅处理10%数据量的情况下,就能保持99%以上的理解性能,从而大幅提升了处理长视频的效率。
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
VideoMaMa:基于生成先验的掩码引导视频抠图 / VideoMaMa: Mask-Guided Video Matting via Generative Prior
该论文提出了一个名为VideoMaMa的新方法,它利用预训练的视频扩散模型,仅需粗略的分割掩码就能生成精确的视频抠图,并在合成数据训练后能直接处理真实世界视频,同时构建了一个大规模伪标注视频抠图数据集来推动该领域研究。
Molmo2:具备视频理解与定位能力的开源视觉语言模型及其权重与数据集 / Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
这篇论文提出了一个名为Molmo2的开源视觉语言模型家族,它不仅通过一系列全新的开源数据集和创新的训练方法在视频理解任务上达到了开源模型的领先水平,还首次在开源模型中实现了对视频内容的像素级精确定位能力。
请先 登录 后再提交论文