arXiv ID:
2604.11689
arXiv 提交日期: 2026-04-13
LARY:一种用于可泛化视觉-动作对齐基准的潜在动作表征 / LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
1️⃣ 一句话总结
这篇论文提出了一个名为LARY的基准测试,通过大规模实验发现,未经动作监督训练的通用视觉模型在将视频理解转化为机器人控制动作方面,比专门为机器人设计的模型表现更好,并且语义层面的抽象表征比像素级信息更能有效连接视觉与动作。