arXiv最新AI论文速览速学

🔍

标签: #video understanding ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Benchmarking and Improving GUI Agents in High-Dynamic Environments 04-29

arXiv ID: 2603.12254

arXiv 提交日期: 2026-03-12

multi-modal model training model evaluation video understanding token reduction autoregressive selection reinforcement learning benchmark

先注视再关注：通过自回归凝视实现高效且可扩展的视频理解 / Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

1️⃣ 一句话总结

这篇论文提出了一个名为AutoGaze的轻量级模块，它通过自回归学习的方式，智能地筛选出视频中最关键的画面片段，从而让大模型在处理长、高清视频时能大幅减少计算量、提升速度，同时保持甚至超越原有的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09827

arXiv 提交日期: 2026-03-10

multi-modal agents benchmark egocentric video multi-agent systems question answering video understanding embodied ai

MA-EgoQA：基于多智能体第一视角视频的问答 / MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MA-EgoQA的新基准测试和数据集，用于评估人工智能模型如何同时理解和回答基于多个智能体第一视角视频的问题，并发现现有模型在这方面存在显著不足，从而为未来多智能体协作系统的开发指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02872

arXiv 提交日期: 2026-03-03

multi-modal model training model evaluation streaming reasoning video understanding chain-of-thought vision-language models efficiency

边看边想：面向大型视觉语言模型的流式思维链推理 / Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为‘边看边想’的新框架，让大型视觉语言模型能够像人类看视频流一样，一边接收图像帧一边实时进行推理，从而在保持高准确率的同时，大幅提升了处理视频的响应速度和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02919

arXiv 提交日期: 2026-03-03

computer vision multi-modal model evaluation video diffusion transformers interpretability saliency maps motion localization video understanding

可解释的运动注意力图：在视频扩散Transformer中定位时空概念 / Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种无需梯度计算的新方法，能够自动生成视频中物体运动和静态概念的时空定位图，从而清晰地解释视频生成模型如何将文字描述转化为具体的动态画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21835

arXiv 提交日期: 2026-02-25

benchmark multi-modal model evaluation video foundation models unified evaluation video generation video understanding agentic evaluation

UniVBench：面向视频基础模型的统一评估 / UniVBench: Towards Unified Evaluation for Video Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为UniVBench的统一评估基准，它首次将视频理解、生成、编辑和重建四大核心能力整合到一个框架中进行综合测评，并引入了一个标准化的自动评估系统，旨在更全面、公平地衡量新一代视频基础模型的真实水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20157

arXiv 提交日期: 2026-02-23

computer vision model training multi-modal 3d reconstruction optical flow self-supervised learning video understanding scene geometry

Flow3r：用于可扩展视觉几何学习的分解式光流预测 / Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning

1️⃣ 一句话总结

这篇论文提出了一种名为Flow3r的新方法，它通过分解式的光流预测，利用大量无标签的单目视频来学习三维场景几何和相机运动，从而在静态和动态场景重建任务上都取得了领先的性能，尤其是在真实动态视频这种标注数据稀缺的场景中效果提升最明显。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16412

arXiv 提交日期: 2026-02-18

multi-modal model training video video understanding motion representation long-video multimodal llm compressed representation

ReMoRa：基于精细化运动表征的多模态大语言模型，用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为ReMoRa的新模型，它通过直接处理视频压缩后的运动表征而非大量原始图像帧，高效地解决了多模态大模型理解长视频时计算量过大的难题，并在多个长视频理解测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08439

arXiv 提交日期: 2026-02-09

multi-modal model evaluation llm in-context learning video understanding instructional videos benchmark multimodal llm

Demo-ICL：基于演示的上下文学习用于过程性视频知识获取 / Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

1️⃣ 一句话总结

这篇论文提出了一个名为Demo-ICL的新任务和对应评测基准，旨在让多模态大语言模型能够通过观看少量教学视频演示来快速学习新技能并回答相关问题，同时开发了一个两阶段训练的新模型来有效解决这一挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03390

arXiv 提交日期: 2026-02-03

computer vision model training machine learning object-centric learning unsupervised learning representation learning video understanding slot attention

从恶性循环到良性循环：用于无监督视频物体中心学习的协同表征学习 / From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning

1️⃣ 一句话总结

这篇论文提出了一种名为协同表征学习的新方法，通过让编码器和解码器相互优化，解决了无监督物体分割中因特征模糊导致的恶性循环问题，从而显著提升了视频中物体分割的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.12254

1️⃣ 一句话总结

arXiv ID: 2603.09827

1️⃣ 一句话总结

arXiv ID: 2603.02872

1️⃣ 一句话总结

arXiv ID: 2603.02919

1️⃣ 一句话总结

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2602.21835

1️⃣ 一句话总结

arXiv ID: 2602.20157

1️⃣ 一句话总结

arXiv ID: 2602.16412

1️⃣ 一句话总结

arXiv ID: 2602.08439

1️⃣ 一句话总结

arXiv ID: 2602.03390

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.12254 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02919 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08439 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03390 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.12254

arXiv ID: 2603.09827

arXiv ID: 2603.02872

arXiv ID: 2603.02919

arXiv ID: 2602.22932

arXiv ID: 2602.21835

arXiv ID: 2602.20157

arXiv ID: 2602.16412

arXiv ID: 2602.08439

arXiv ID: 2602.03390