arXiv ID:
2603.27449
arXiv 提交日期: 2026-03-28
LOME:基于动作条件的自我中心世界模型学习人-物操控 / LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model
1️⃣ 一句话总结
这篇论文提出了一个名为LOME的自我中心世界模型,它能够根据一张图片、一段文字描述以及每帧的人体动作(包括身体姿势和手势)来生成逼真的人与物体交互视频,在动作控制的精确性、对新场景的泛化能力以及物理交互的真实感方面都超越了现有方法。