arXiv最新AI论文速览速学

🔍

video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: TextOVSR: Text-Guided Real-World Opera Video Super-Resolution 03-17

arXiv ID: 2603.15153

arXiv 提交日期: 2026-03-16

computer vision video model training video super-resolution text-guided generation real-world degradation cross-modal fusion opera video benchmark

TextOVSR：文本引导的真实世界戏曲视频超分辨率 / TextOVSR: Text-Guided Real-World Opera Video Super-Resolution

1️⃣ 一句话总结

这篇论文提出了一种名为TextOVSR的新方法，通过引入描述画面退化和内容的两种文本提示来指导模型，有效解决了老旧戏曲视频因设备限制和长期存储导致的画质模糊问题，从而能更真实、细致地恢复视频的纹理细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10551

arXiv 提交日期: 2026-03-11

computer vision video model training gaussian splatting video reconstruction image reconstruction progressive representation layered optimization

P-GSVC：用于可扩展图像与视频的分层渐进式二维高斯泼溅 / P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

1️⃣ 一句话总结

这篇论文提出了一个名为P-GSVC的新框架，它通过将二维高斯元素组织成基础层和多个增强层，并采用联合训练策略，实现了图像和视频从粗糙到精细的高质量、可扩展重建，显著提升了重建效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10417

arXiv 提交日期: 2026-03-11

computer vision model training video video denoising self-supervised learning spatiotemporal modeling blind-spot networks residual learning

帧到残差：用于自监督视频去噪的时空解耦框架 / Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

1️⃣ 一句话总结

这篇论文提出了一个名为Frames2Residual的新方法，它通过将视频去噪过程巧妙分解为‘盲时序建模’和‘非盲空间修复’两个独立阶段，有效解决了现有自监督方法在保持视频帧间连贯性与恢复单帧内清晰细节之间难以兼顾的难题，从而在无需干净数据训练的情况下实现了更高质量的视频去噪效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08620

arXiv 提交日期: 2026-03-09

video model evaluation benchmark streaming video understanding temporal reasoning answer readiness video question answering timing-aware evaluation

StreamReady：学习在长流式视频中何时回答以及回答什么 / StreamReady: Learning What to Answer and When in Long Streaming Videos

1️⃣ 一句话总结

这篇论文提出了一个名为StreamReady的新框架，它通过一个轻量级的‘准备就绪’机制，让AI模型在观看长视频流时，不仅能判断内容，还能精准把握回答问题的恰当时机，避免过早猜测或过晚回应，从而在多个视频理解任务上取得了更优表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02573

arXiv 提交日期: 2026-03-03

computer vision multi-modal video 3d scene flow monocular tracking 4d reconstruction dense correspondence world-centric coordinate

Track4World：前馈式世界中心坐标系下所有像素的密集三维跟踪 / Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

1️⃣ 一句话总结

这篇论文提出了一个名为Track4World的高效前馈模型，它能够从单目视频中快速、准确地追踪每一个像素在三维空间中的运动轨迹，为理解视频的动态三维结构提供了强大的新工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02363

arXiv 提交日期: 2026-03-02

computer vision video model evaluation video moment retrieval query generalization detr architectures benchmark multi-moment queries

超越基于字幕查询的视频片段检索 / Beyond Caption-Based Queries for Video Moment Retrieval

1️⃣ 一句话总结

这篇论文发现，现有基于字幕训练的视频片段检索模型在处理更简洁的搜索查询或多片段查询时性能会显著下降，并通过分析问题根源和修改模型结构，有效提升了模型在这些实际场景下的检索准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01593

arXiv 提交日期: 2026-03-02

computer vision privacy video location privacy conditional random fields video anonymization object detection privacy-preserving machine learning

PPEDCRF：一种用于序列视频位置隐私保护且检测性能退化最小的隐私保护增强型动态条件随机场方法 / PPEDCRF: Privacy-Preserving Enhanced Dynamic CRF for Location-Privacy Protection for Sequence Videos with Minimal Detection Degradation

1️⃣ 一句话总结

这篇论文提出了一种名为PPEDCRF的新方法，它通过智能地在行车记录仪视频中对背景中的敏感区域（如建筑物）添加干扰，有效防止他人根据视频画面推断出拍摄地点，同时最大程度地保留了视频中车辆、行人等前景目标的检测准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23228

arXiv 提交日期: 2026-02-26

multi-modal video model evaluation video summarization vision-language models tool-augmented generation character identification progressive abstraction

MovieTeller：基于工具增强与身份一致渐进式抽象的电影梗概生成 / MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

1️⃣ 一句话总结

这篇论文提出了一个名为MovieTeller的新框架，它通过结合现成的人脸识别工具和分阶段抽象的方法，解决了现有视觉语言模型在生成长视频（如电影）梗概时角色身份混乱和叙事不连贯的问题，从而生成了更准确、更连贯的电影摘要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21137

arXiv 提交日期: 2026-02-24

video benchmark multi-modal video question answering spatio-temporal reasoning urban traffic dataset privacy preservation

UDVideoQA：一个用于城市动态多目标时空推理的交通视频问答数据集 / UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

1️⃣ 一句话总结

这篇论文提出了一个名为UDVideoQA的新数据集，它基于真实城市交通视频，通过大量问答对来系统评估AI模型在视觉理解和因果推理方面的能力，并发现当前先进模型在基础感知和复杂推理之间存在明显差距，而使用该数据集微调较小的模型可以有效弥补这一不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20981

arXiv 提交日期: 2026-02-24

video audio multi-modal video-to-audio length generalization long-form generation multimodal alignment mamba

跨越时间的回响：解锁视频到音频生成模型的长度泛化能力 / Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

1️⃣ 一句话总结

这项研究提出了一种名为MMHNet的新方法，通过结合分层结构和非因果Mamba技术，成功让视频生成音频的模型在仅用短视频训练后，也能生成长达5分钟以上的高质量音频，解决了模型从短样本到长样本的泛化难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15153

1️⃣ 一句话总结

arXiv ID: 2603.10551

1️⃣ 一句话总结

arXiv ID: 2603.10417

1️⃣ 一句话总结

arXiv ID: 2603.08620

1️⃣ 一句话总结

arXiv ID: 2603.02573

1️⃣ 一句话总结

arXiv ID: 2603.02363

1️⃣ 一句话总结

arXiv ID: 2603.01593

1️⃣ 一句话总结

arXiv ID: 2602.23228

1️⃣ 一句话总结

arXiv ID: 2602.21137

1️⃣ 一句话总结

arXiv ID: 2602.20981

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15153 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10417 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02573 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02363 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01593 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23228 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21137 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20981 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15153

arXiv ID: 2603.10551

arXiv ID: 2603.10417

arXiv ID: 2603.08620

arXiv ID: 2603.02573

arXiv ID: 2603.02363

arXiv ID: 2603.01593

arXiv ID: 2602.23228

arXiv ID: 2602.21137

arXiv ID: 2602.20981