arXiv最新AI论文速览速学

🔍

标签: #egocentric video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents 03-11

arXiv ID: 2603.09827

arXiv 提交日期: 2026-03-10

multi-modal agents benchmark egocentric video multi-agent systems question answering video understanding embodied ai

MA-EgoQA：基于多智能体第一视角视频的问答 / MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MA-EgoQA的新基准测试和数据集，用于评估人工智能模型如何同时理解和回答基于多个智能体第一视角视频的问题，并发现现有模型在这方面存在显著不足，从而为未来多智能体协作系统的开发指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18157

arXiv 提交日期: 2026-01-26

agents multi-modal video egocentric video long-horizon reasoning entity scene graphs agentic framework video understanding

智能体驱动的超长视频理解 / Agentic Very Long Video Understanding

1️⃣ 一句话总结

这项研究提出了一种名为EGAgent的新框架，它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频，从而在复杂的长时视频理解任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11393

arXiv 提交日期: 2025-12-12

agents computer vision multi-modal egocentric video parallel execution vision-language model action planning constraint reasoning

N体问题：从单人第一人称视频中实现并行执行 / The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

1️⃣ 一句话总结

这篇论文提出了一种方法，通过分析一个人的第一人称视角视频，来规划多个人如何安全、高效地并行完成视频中的一系列任务，从而显著提升工作效率并避免现实中的冲突。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06065

arXiv 提交日期: 2025-12-05

video benchmark computer vision egocentric video video editing real-time streaming dataset instruction-guided editing

EgoEdit：用于第一人称视频编辑的数据集、实时流式模型与评测基准 / EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

1️⃣ 一句话总结

这篇论文提出了一个专门用于第一人称视角视频编辑的完整系统，包括一个包含丰富手部交互的数据集、一个能在单张GPU上实时编辑的模型，以及一个全面的评测标准，解决了现有方法在处理第一人称视频时因剧烈运动和手部交互而产生的效果不佳和延迟过高的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04515

arXiv 提交日期: 2025-12-04

video generation multi-modal model training egocentric video long-context diffusion memory management temporal consistency world models

EgoLCD：基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为EgoLCD的新方法，通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频，有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09827

1️⃣ 一句话总结

arXiv ID: 2601.18157

1️⃣ 一句话总结

arXiv ID: 2512.11393

1️⃣ 一句话总结

arXiv ID: 2512.06065

1️⃣ 一句话总结

arXiv ID: 2512.04515

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11393 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06065 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04515 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09827

arXiv ID: 2601.18157

arXiv ID: 2512.11393

arXiv ID: 2512.06065

arXiv ID: 2512.04515