arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
N体问题:从单人第一人称视频中实现并行执行 / The N-Body Problem: Parallel Execution from Single-Person Egocentric Video
这篇论文提出了一种方法,通过分析一个人的第一人称视角视频,来规划多个人如何安全、高效地并行完成视频中的一系列任务,从而显著提升工作效率并避免现实中的冲突。
EgoEdit:用于第一人称视频编辑的数据集、实时流式模型与评测基准 / EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
这篇论文提出了一个专门用于第一人称视角视频编辑的完整系统,包括一个包含丰富手部交互的数据集、一个能在单张GPU上实时编辑的模型,以及一个全面的评测标准,解决了现有方法在处理第一人称视频时因剧烈运动和手部交互而产生的效果不佳和延迟过高的问题。
EgoLCD:基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion
这篇论文提出了一种名为EgoLCD的新方法,通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频,有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。
请先 登录 后再提交论文