arXiv ID:
2606.01955
arXiv 提交日期: 2026-06-01
WALL-WM:在事件连接处构建世界动作模型 / WALL-WM: Carving World Action Modeling at the Event Joints
1️⃣ 一句话总结
WALL-WM提出了一种基于语义事件的世界动作模型,通过将视频-动作学习从固定长度的分块优化转变为以事件为基本单元的视觉-语言-动作预训练,解决了语言、视觉和动作在时间尺度上的不匹配问题,从而在多种场景和任务中实现了更广泛的泛化能力。