arXiv最新AI论文速览速学

🔍

video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 51 72小时内新更新论文 72h更新 51 最新: Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection 06-22

arXiv ID: 2605.26441

arXiv 提交日期: 2026-05-26

video natural language processing machine learning video temporal grounding weakly-supervised learning game theory cross-modal learning moment retrieval

从博弈视角重新思考弱监督视频时间定位 / Rethinking Weakly-supervised Video Temporal Grounding From a Game Perspective

1️⃣ 一句话总结

本文提出了一种全新的博弈论方法来解决弱监督视频时间定位问题，通过将视频帧和查询词视为博弈中的玩家，并利用多元合作博弈理论学习它们之间多层次的细粒度匹配关系，从而在不依赖复杂候选片段的情况下更精准地定位目标时间区间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25944

arXiv 提交日期: 2026-05-25

medical computer vision video ultrasound segmentation training-free point prompting video object segmentation reliability gating

EchoPilot：无需训练的超声视频分割方法——通过尺度空间语义提示与可靠性门控记忆 / EchoPilot: Training-Free Ultrasound Video Segmentation via Scale-Space Semantic Prompting and Reliability-Gated Memory

1️⃣ 一句话总结

本文提出了一种无需额外训练的超声视频分割框架EchoPilot，用户只需在第一帧点击一个点和输入器官名称，系统就能利用预训练的视觉语言模型和基础模型自动完成精准分割，并通过智能记忆更新机制有效避免错误累积，在多个数据集上超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.22605

arXiv 提交日期: 2026-05-21

computer vision video uav detection ego-motion compensation motion guidance feature pyramid network

基于双间隔运动线索解耦自身运动与目标动态的无人机检测方法 / Decoupling Ego-Motion from Target Dynamics via Dual-Interval Motion Cues for UAV Detection

1️⃣ 一句话总结

本文提出一种仅依赖视觉的运动引导检测框架，通过全局运动补偿和长短双间隔运动提取策略，有效分离无人机自身运动与目标真实运动，并利用轻量级注意力模块增强特征，显著提升在剧烈抖动和尺度变化下的小目标检测性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21957

arXiv 提交日期: 2026-05-21

computer vision video video anomaly detection bounding-box trajectories normalizing flows pose-based methods trajectory modeling

边界框轨迹在视频异常检测中的重要性 / Bounding-Box Trajectories Matter for Video Anomaly Detection

1️⃣ 一句话总结

本文提出了一种名为TrajVAD的视频异常检测方法，通过利用边界框的移动轨迹来识别异常行为，无需复杂的人体姿态估计，在多个公开数据集上取得了优于现有方法的检测效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21132

arXiv 提交日期: 2026-05-20

multi-modal video medical surgical video vision-language model real-time workflow understanding streaming

SurgOnAir：具有层级感知能力的实时手术视频解说 / SurgOnAir: Hierarchy-Aware Real-Time Surgical Video Commentary

1️⃣ 一句话总结

该论文提出了一种名为SurgOnAir的流式视觉语言模型，它能像直播解说一样，实时逐帧分析手术视频，并同步生成从动作、步骤到阶段的多层级文字描述，从而让AI系统能即时感知并响应手术过程中的细微变化与关键转折。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20961

arXiv 提交日期: 2026-05-20

computer vision video model training 4d video editing faithful editing region-aware disocclusion benchmark

保留、揭示与扩展：基于区域感知的忠实4D视频编辑方法 / Preserve, Reveal, Expand: Faithful 4D Video Editing with Region-Aware Conditioning

1️⃣ 一句话总结

本文提出一种名为PREX的4D视频编辑方法，通过将视频空间划分为需要保留、揭示和扩展三种区域，并分别给予不同的处理策略，从而在保持已有画面内容不变的同时，准确补全被遮挡或镜头外的部分，解决了现有方法常见的画面模糊、重影和内容漂移等问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21411

arXiv 提交日期: 2026-05-20

multi-modal aigc video video captioning tone control road events controllable generation evaluation suite

RoadTones：从道路事件视频生成语气可控的文本 / RoadTones: Tone Controllable Text Generation from Road Event Videos

1️⃣ 一句话总结

本文提出了一套包含数据集、模型和评估方法的完整方案，使AI能够根据道路事件视频生成语气可调节的文本描述，例如“紧急”或“中性”语气，从而让视频描述不仅准确，还能根据沟通需求调整表达方式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21478

arXiv 提交日期: 2026-05-20

computer vision machine learning video avatar animation neural rendering latent dynamics temporal coherence garment modeling

基于潜在动力学的全身角色动画生成 / Latent Dynamics for Full Body Avatar Animation

1️⃣ 一句话总结

该论文提出了一种结合学习型潜在动力学模型和3D高斯渲染的全身角色动画方法，能够在不依赖物理模拟或预先制作服饰模板的情况下，利用历史动作信息预测并生成衣物等动态元素的自然、连贯变形，从而显著提升动画的真实感和细节质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20904

arXiv 提交日期: 2026-05-20

computer vision video model training action anticipation jepa egocentric video epic-kitchens ensemble

JFAA：EgoVis 2026 EPIC-KITCHENS-100动作预测挑战赛技术报告 / JFAA: Technical Report for the EPIC-KITCHENS-100 Action Anticipation Challenge at EgoVis 2026

1️⃣ 一句话总结

本文提出了一种基于V-JEPA模型的轻量级动作预测方法（JFAA），通过冻结预训练编码器提取视频特征，并利用注意力机制分别预测动作的动词、名词和整体动作标签，最终在EPIC-KITCHENS-100动作预测挑战赛中取得第一名。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19559

arXiv 提交日期: 2026-05-19

multi-modal benchmark video egocentric video chain of thought reasoning operation-centric reasoning multi-modal llm evaluation spatio-temporal reasoning

EgoCoT-Bench：面向多模态大语言模型的、基于事实且可验证的操作中心链式推理基准 / EgoCoT-Bench: Benchmarking Grounded and Verifiable Operation-Centric Chain of Thought Reasoning for MLLMs

1️⃣ 一句话总结

针对当前多模态模型在处理第一人称视频时缺乏细粒度操作推理和可验证推理过程的问题，本文提出了一个新基准EgoCoT-Bench，它通过时空场景图自动生成高质量的问答对，并由人工精修，能够系统评估模型在感知、回顾、预测和高层推理上的表现，实验发现很多模型虽然答案正确，但解释中引用的证据与答案矛盾。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.26441

1️⃣ 一句话总结

arXiv ID: 2605.25944

1️⃣ 一句话总结

arXiv ID: 2605.22605

1️⃣ 一句话总结

arXiv ID: 2605.21957

1️⃣ 一句话总结

arXiv ID: 2605.21132

1️⃣ 一句话总结

arXiv ID: 2605.20961

1️⃣ 一句话总结

arXiv ID: 2605.21411

1️⃣ 一句话总结

arXiv ID: 2605.21478

1️⃣ 一句话总结

arXiv ID: 2605.20904

1️⃣ 一句话总结

arXiv ID: 2605.19559

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.26441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25944 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.22605 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21411 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21478 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19559 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.26441

arXiv ID: 2605.25944

arXiv ID: 2605.22605

arXiv ID: 2605.21957

arXiv ID: 2605.21132

arXiv ID: 2605.20961

arXiv ID: 2605.21411

arXiv ID: 2605.21478

arXiv ID: 2605.20904

arXiv ID: 2605.19559