arXiv最新AI论文速览速学

🔍

标签: #video dataset ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding 01-15

arXiv ID: 2601.07290

arXiv 提交日期: 2026-01-12

multi-modal video model evaluation video llm spatial-temporal understanding benchmark video dataset multimodal intelligence

VideoLoom：一个用于联合时空理解的视频大语言模型 / VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为VideoLoom的视频大语言模型，它通过构建一个带精细标注的数据集和新评测基准，能够同时理解视频中物体在空间上的位置和动作在时间上的变化，并在多项视频理解任务中取得了领先或极具竞争力的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02427

arXiv 提交日期: 2026-01-04

agents computer vision model training gaming agents behavior cloning cross-game generalization vision-action model video dataset

NitroGen：一个面向通用游戏智能体的开放基础模型 / NitroGen: An Open Foundation Model for Generalist Gaming Agents

1️⃣ 一句话总结

这篇论文提出了一个名为NitroGen的通用游戏AI基础模型，它通过从海量游戏视频中学习玩家操作，能够直接理解和执行多种不同类型游戏中的复杂任务，并在未见过的新游戏上表现出强大的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17650

arXiv 提交日期: 2025-12-19

video model training multi-modal instructional video editing in-context learning diffusion models attention regularization video dataset

面向教学视频编辑的区域约束上下文生成 / Region-Constraint In-Context Generation for Instructional Video Editing

1️⃣ 一句话总结

这篇论文提出了一种名为ReCo的新方法，通过引入区域约束机制来精准控制视频编辑区域，解决了现有教学视频编辑中编辑范围不准确和内容相互干扰的问题，从而显著提升了编辑质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16915

arXiv 提交日期: 2025-12-18

computer vision multi-modal model training stereo conversion view synthesis generative priors video dataset feed-forward model

StereoPilot：通过生成先验学习统一且高效的立体视频转换 / StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

1️⃣ 一句话总结

这篇论文提出了一个名为StereoPilot的高效模型和一个大规模统一数据集UniStereo，能够直接、高质量地将普通2D视频转换为适用于VR和3D影院的不同格式的立体视频，解决了传统方法流程复杂、效果差的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10927

arXiv 提交日期: 2025-12-11

computer vision model training multi-modal motion understanding video dataset auto-labeling spatial reasoning llm-augmented data

FoundationMotion：视频中空间运动的自动标注与推理 / FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

1️⃣ 一句话总结

这篇论文提出了一个名为FoundationMotion的自动化数据构建流程，能够从视频中自动生成大规模、细粒度的运动数据集，并用这些数据训练模型，显著提升了AI对物体运动和空间关系的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09676

arXiv 提交日期: 2025-09-11

computer vision data video spatial annotation video dataset camera pose depth estimation 3d reconstruction

SpatialVID：一个带有空间标注的大规模视频数据集 / SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

1️⃣ 一句话总结

这篇论文构建了一个名为SpatialVID的大规模视频数据集，包含超过7000小时的动态视频内容，并提供了详细的3D空间标注，旨在解决当前空间智能模型因训练数据不足而面临的泛化和真实感挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.07290

1️⃣ 一句话总结

arXiv ID: 2601.02427

1️⃣ 一句话总结

arXiv ID: 2512.17650

1️⃣ 一句话总结

arXiv ID: 2512.16915

1️⃣ 一句话总结

arXiv ID: 2512.10927

1️⃣ 一句话总结

arXiv ID: 2509.09676

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.07290 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02427 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17650 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16915 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09676 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.07290

arXiv ID: 2601.02427

arXiv ID: 2512.17650

arXiv ID: 2512.16915

arXiv ID: 2512.10927

arXiv ID: 2509.09676