PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
1️⃣ 一句话总结
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
请先 登录 后再提交论文
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
基于3D点轨迹的生成式视频运动编辑 / Generative Video Motion Editing with 3D Point Tracks
这篇论文提出了一种新的视频编辑方法,通过利用3D点轨迹来精确控制视频中相机和物体的复杂运动,解决了现有方法难以保持场景一致性和处理精细动作的难题。
PAI-Bench:面向物理人工智能的综合基准测试 / PAI-Bench: A Comprehensive Benchmark For Physical AI
这篇论文提出了一个名为PAI-Bench的综合基准测试,用于系统评估当前多模态大模型和视频生成模型在理解和预测真实世界物理规律方面的能力,结果发现这些模型在物理连贯性和因果推理上仍存在明显不足。
使用弱监督双编码器模型识别监控视频中的异常事件 / Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models
这篇论文提出了一种仅需视频级别标注的弱监督方法,通过结合卷积和Transformer两种网络的优势,有效检测监控视频中罕见且多样的异常行为,在标准数据集上取得了优异的性能。
InternVideo-Next:迈向无需视频-文本监督的通用视频基础模型 / InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision
这篇论文提出了一种名为InternVideo-Next的新方法,它通过创新的两阶段训练框架,无需依赖大规模视频-文本配对数据,就能构建出能同时理解视频细节和高级语义的通用视频模型,并在多个基准测试中取得了领先性能。
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。
TimeViper:一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
这篇论文提出了一个名为TimeViper的混合模型,它结合了Mamba和Transformer的优势,通过创新的信息压缩技术高效处理长达一小时的视频,在保持高性能的同时大幅提升了长视频理解能力。
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。