arXiv最新AI论文速览速学

🔍

video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 189 最新: LAVA: Layered Audio-Visual Anti-tampering Watermarking for Robust Deepfake Detection and Localization 05-02

arXiv ID: 2604.06740

arXiv 提交日期: 2026-04-08

computer vision multi-modal video novel view synthesis real-time rendering multi-view video camera pose estimation feed-forward model

LiveStre4m：基于前馈网络的非标定多视角视频实时新视角流式传输 / LiveStre4m: Feed-Forward Live Streaming of Novel Views from Unposed Multi-View Video

1️⃣ 一句话总结

这项研究提出了一种名为LiveStre4m的新方法，它能够仅使用少数几个未经校准的摄像头拍摄的视频，以前所未有的速度实时生成并流畅播放任意新角度的动态3D场景视频，解决了传统方法依赖精确相机参数且计算缓慢的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04634

arXiv 提交日期: 2026-04-06

video model evaluation aigc video forensics ai-generated video detection native-scale processing forgery artifacts benchmark dataset

保留伪造痕迹：原生尺度下的AI生成视频检测 / Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

1️⃣ 一句话总结

这篇论文针对现有AI生成视频检测方法会因固定尺寸预处理而丢失关键伪造痕迹的问题，提出了一个包含海量视频的新数据集和一个能在视频原始分辨率下直接分析、从而有效保留高频伪造特征的新型检测框架，显著提升了检测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02093

arXiv 提交日期: 2026-04-02

multi-modal video model training video temporal grounding visual token sampling video large language models moment retrieval highlight detection

GroundVTS：用于视频时序定位的多模态大语言模型中的视觉令牌采样 / GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding

1️⃣ 一句话总结

这篇论文提出了一种名为GroundVTS的新方法，它能让视频大语言模型更智能地筛选视频关键片段，而不是均匀采样所有画面，从而显著提升了在视频中精准定位特定时刻的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29616

arXiv 提交日期: 2026-03-31

video model evaluation benchmark video understanding evaluation suite diagnostic analysis spatio-temporal reasoning benchmark critique

Video-Oasis：重新思考视频理解的评估 / Video-Oasis: Rethinking Evaluation of Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Video-Oasis的诊断工具，通过系统分析发现现有视频理解评测基准存在严重缺陷——超过一半的测试样本无需观看视频就能答对，而顶尖模型在真正需要时空理解的样本上表现接近随机猜测，从而为未来构建更可靠的评测标准和模型设计提供了实用指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27593

arXiv 提交日期: 2026-03-29

multi-modal video agents streaming video understanding proactive interaction video-llms sequence denoising when-to-speak

STRIDE：流式视频理解中何时发言与序列去噪的结合 / STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为STRIDE的新方法，它通过一个轻量级的序列去噪模块，让AI在观看实时流式视频时，能更准确、更连贯地判断出应该在哪个最佳时机主动发言或做出反应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22872

arXiv 提交日期: 2026-03-24

video multi-modal benchmark forensic search video surveillance video question answering temporal grounding video retrieval

ForeSea：支持多模态查询的视频监控AI取证搜索系统 / ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

1️⃣ 一句话总结

这篇论文提出了一个名为ForeSea的新系统和一个配套的基准数据集ForeSeaQA，用于解决在长时段多摄像头监控视频中，通过结合图像和文字进行复杂查询并精确定位事件时间的难题，显著提升了搜索的准确性和时间定位精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22953

arXiv 提交日期: 2026-03-24

multi-modal model training video video-language pretraining masked visual modeling spatio-temporal masking multimodal alignment efficient training

面向高效视频-语言预训练的聚类式时空掩码策略 / Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

1️⃣ 一句话总结

这篇论文提出了一种名为ClusterSTM的智能视频掩码方法，它通过聚类和保留关键帧来高效学习视频与文字的关系，在降低计算成本的同时，显著提升了视频理解、检索和问答等任务的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23186

arXiv 提交日期: 2026-03-24

multi-modal model evaluation video video large language models temporal reasoning visual prompting efficiency frame selection

ViKey：通过视觉提示增强视频时序理解 / ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

1️⃣ 一句话总结

这篇论文提出了一种名为ViKey的免训练框架，通过为视频帧添加序号等简单视觉提示，帮助视频大语言模型更好地理解事件的时间顺序和关联，从而在只使用少量视频帧的情况下，也能达到与处理全部密集帧相近的时序推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19224

arXiv 提交日期: 2026-03-19

computer vision video model training video object removal video inpainting dataset multi-task learning diffusion models

EffectErase：用于高质量效果擦除的视频对象联合移除与插入方法 / EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

1️⃣ 一句话总结

这篇论文提出了一个名为EffectErase的新方法，通过将视频对象插入作为辅助任务进行联合学习，并基于其新构建的大规模数据集VOR进行训练，能够更有效地移除视频中的动态目标物体及其伴随的阴影、变形等视觉影响，从而实现高质量的无缝背景修复。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14794

arXiv 提交日期: 2026-03-16

video multi-modal data video dataset human interaction reactive generation speech-driven avatar dyadic behavior

面对面：用于多人交互建模的视频数据集 / Face-to-Face: A Video Dataset for Multi-Person Interaction Modeling

1️⃣ 一句话总结

这篇论文发布了一个名为F2F-JF的新视频数据集，专门用于研究两人对话中的互动与反应时序，并通过一个生成数字主持人的任务展示了该数据集如何帮助AI模型更好地理解和模拟人际交流中的动态响应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.06740

1️⃣ 一句话总结

arXiv ID: 2604.04634

1️⃣ 一句话总结

arXiv ID: 2604.02093

1️⃣ 一句话总结

arXiv ID: 2603.29616

1️⃣ 一句话总结

arXiv ID: 2603.27593

1️⃣ 一句话总结

arXiv ID: 2603.22872

1️⃣ 一句话总结

arXiv ID: 2603.22953

1️⃣ 一句话总结

arXiv ID: 2603.23186

1️⃣ 一句话总结

arXiv ID: 2603.19224

1️⃣ 一句话总结

arXiv ID: 2603.14794

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.06740 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04634 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02093 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27593 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19224 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14794 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.06740

arXiv ID: 2604.04634

arXiv ID: 2604.02093

arXiv ID: 2603.29616

arXiv ID: 2603.27593

arXiv ID: 2603.22872

arXiv ID: 2603.22953

arXiv ID: 2603.23186

arXiv ID: 2603.19224

arXiv ID: 2603.14794