arXiv ID:
2604.19105
arXiv 提交日期: 2026-04-21
EgoMotion:面向第一人称视角的视觉-语言运动生成的层级推理与扩散方法 / EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation
1️⃣ 一句话总结
本文提出了一种名为EgoMotion的两阶段生成框架,先通过视觉语言模型进行认知推理以理解第一人称视角下的场景和指令,再使用扩散模型生成连贯且符合物理规律的人体运动,有效解决了推理与生成相互干扰的难题,在性能上超越了现有方法。