PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
1️⃣ 一句话总结
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
请先 登录 后再提交论文
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
PAI-Bench:面向物理人工智能的综合基准测试 / PAI-Bench: A Comprehensive Benchmark For Physical AI
这篇论文提出了一个名为PAI-Bench的综合基准测试,用于系统评估当前多模态大模型和视频生成模型在理解和预测真实世界物理规律方面的能力,结果发现这些模型在物理连贯性和因果推理上仍存在明显不足。
Click2Graph:通过单次点击生成交互式全景视频场景图 / Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
这篇论文提出了一个名为Click2Graph的交互式框架,用户只需在视频中点击或框选一个目标,系统就能自动追踪它、找出与之互动的其他物体,并推断出它们之间的关系,从而生成一个结构化的、易于理解和控制的视频场景理解图谱。
使用弱监督双编码器模型识别监控视频中的异常事件 / Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models
这篇论文提出了一种仅需视频级别标注的弱监督方法,通过结合卷积和Transformer两种网络的优势,有效检测监控视频中罕见且多样的异常行为,在标准数据集上取得了优异的性能。
TimeViper:一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
这篇论文提出了一个名为TimeViper的混合模型,它结合了Mamba和Transformer的优势,通过创新的信息压缩技术高效处理长达一小时的视频,在保持高性能的同时大幅提升了长视频理解能力。
VideoSSR:视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning
本研究提出了一种名为VideoSSR的视频自监督强化学习框架,通过设计三种无需人工标注的自监督任务来生成高质量训练数据,有效提升了多模态大语言模型在多种视频理解任务上的性能,平均提升超过5%。