arXiv ID:
2602.10104
arXiv 提交日期: 2026-02-10
Olaf-World:面向视频世界建模的潜在动作定向 / Olaf-World: Orienting Latent Actions for Video World Modeling
1️⃣ 一句话总结
这篇论文提出了一种名为Olaf-World的新方法,通过一种创新的序列级对齐目标,从海量无标签视频中学习出具有通用语义、能跨场景迁移的潜在动作表示,从而显著提升了视频世界模型的动作控制能力和数据利用效率。