arXiv最新AI论文速览速学

🔍

video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: LAVA: Layered Audio-Visual Anti-tampering Watermarking for Robust Deepfake Detection and Localization 05-02

arXiv ID: 2602.20981

arXiv 提交日期: 2026-02-24

video audio multi-modal video-to-audio length generalization long-form generation multimodal alignment mamba

跨越时间的回响：解锁视频到音频生成模型的长度泛化能力 / Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

1️⃣ 一句话总结

这项研究提出了一种名为MMHNet的新方法，通过结合分层结构和非因果Mamba技术，成功让视频生成音频的模型在仅用短视频训练后，也能生成长达5分钟以上的高质量音频，解决了模型从短样本到长样本的泛化难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20159

arXiv 提交日期: 2026-02-23

video benchmark model evaluation video reasoning scaling laws evaluation framework spatiotemporal reasoning emergent generalization

一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite

1️⃣ 一句话总结

这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架，首次系统地研究了视频模型的推理能力，并发现了模型在未见任务上出现泛化能力的早期迹象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16412

arXiv 提交日期: 2026-02-18

multi-modal model training video video understanding motion representation long-video multimodal llm compressed representation

ReMoRa：基于精细化运动表征的多模态大语言模型，用于长视频理解 / ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为ReMoRa的新模型，它通过直接处理视频压缩后的运动表征而非大量原始图像帧，高效地解决了多模态大模型理解长视频时计算量过大的难题，并在多个长视频理解测试中取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11903

arXiv 提交日期: 2026-02-12

computer vision model training video video quality assessment multi-task learning no-reference vqa gaming videos perceptual representation

利用多任务全参考信号学习感知表征用于游戏视频无参考质量评估 / Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals

1️⃣ 一句话总结

这篇论文提出了一种名为MTL-VQA的多任务学习框架，它巧妙地利用无需人工标注的全参考视频质量指标作为训练信号，来学习感知特征，从而有效解决了游戏视频因数据稀缺和内容独特而导致的无参考质量评估难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08699

arXiv 提交日期: 2026-02-09

computer vision video model training low-light enhancement video decomposition spatial-temporal modeling neural networks benchmark evaluation

一种有效的时空分解范式下的低光视频增强 / Low-Light Video Enhancement with An Effective Spatial-Temporal Decomposition Paradigm

1️⃣ 一句话总结

这篇论文提出了一种名为VLLVE++的新方法，通过将视频内容智能分解为不同部分并分别处理，有效提升了昏暗、有噪点视频的画质，尤其在处理真实世界动态场景时表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08395

arXiv 提交日期: 2026-02-09

video model training computer vision video restoration diffusion models temporal alignment knowledge distillation adversarial training

D^2-VR：基于协同优化策略的、抗退化且经过蒸馏的视频修复方法 / D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy

1️⃣ 一句话总结

这篇论文提出了一种名为D^2-VR的新方法，它通过设计抗退化的运动对齐模块和采用对抗性蒸馏技术，在保证视频修复高质量的同时，将处理速度大幅提升了12倍，有效解决了现有方法速度慢且面对复杂画面退化时效果不稳定的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08024

arXiv 提交日期: 2026-02-08

video model training natural language processing video llms token merging inference acceleration spatiotemporal compression efficiency

FlashVID：一种基于无训练树状时空令牌合并的高效视频大语言模型 / FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging

1️⃣ 一句话总结

这篇论文提出了一种名为FlashVID的无训练加速框架，它通过智能合并视频中相似或冗余的视觉信息块，让视频大模型在仅处理10%数据量的情况下，就能保持99%以上的理解性能，从而大幅提升了处理长视频的效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07689

arXiv 提交日期: 2026-02-07

multi-modal video model evaluation video reasoning process-of-thought temporal grounding interpretability vision-language models

视频的思维过程推理 / Process-of-Thought Reasoning for Videos

1️⃣ 一句话总结

这篇论文提出了一个名为‘思维过程’的视频推理框架，它将复杂的视频理解任务分解成一系列可验证的步骤，从而让推理过程更清晰、更准确，并减少错误，同时适用于不同的现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18157

arXiv 提交日期: 2026-01-26

agents multi-modal video egocentric video long-horizon reasoning entity scene graphs agentic framework video understanding

智能体驱动的超长视频理解 / Agentic Very Long Video Understanding

1️⃣ 一句话总结

这项研究提出了一种名为EGAgent的新框架，它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频，从而在复杂的长时视频理解任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14255

arXiv 提交日期: 2026-01-20

computer vision video model training video matting diffusion models pseudo-labeling segmentation dataset creation

VideoMaMa：基于生成先验的掩码引导视频抠图 / VideoMaMa: Mask-Guided Video Matting via Generative Prior

1️⃣ 一句话总结

该论文提出了一个名为VideoMaMa的新方法，它利用预训练的视频扩散模型，仅需粗略的分割掩码就能生成精确的视频抠图，并在合成数据训练后能直接处理真实世界视频，同时构建了一个大规模伪标注视频抠图数据集来推动该领域研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20981

1️⃣ 一句话总结

arXiv ID: 2602.20159

1️⃣ 一句话总结

arXiv ID: 2602.16412

1️⃣ 一句话总结

arXiv ID: 2602.11903

1️⃣ 一句话总结

arXiv ID: 2602.08699

1️⃣ 一句话总结

arXiv ID: 2602.08395

1️⃣ 一句话总结

arXiv ID: 2602.08024

1️⃣ 一句话总结

arXiv ID: 2602.07689

1️⃣ 一句话总结

arXiv ID: 2601.18157

1️⃣ 一句话总结

arXiv ID: 2601.14255

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20981 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11903 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08024 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14255 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20981

arXiv ID: 2602.20159

arXiv ID: 2602.16412

arXiv ID: 2602.11903

arXiv ID: 2602.08699

arXiv ID: 2602.08395

arXiv ID: 2602.08024

arXiv ID: 2602.07689

arXiv ID: 2601.18157

arXiv ID: 2601.14255